鹤思 + SCOW 算力一体化方案¶
鹤思与自研算力平台系统 SCOW(Super Computing On Web)深度集成,形成从底层资源调度到上层运营管理的完整算力中心解决方案,为政府、高校、企业、运营商提供算力平台一站式服务。
SCOW 简介¶
SCOW 是面向算力中心的"超·智·量·云"一体化算力平台系统,解决算力中心在建设和运营中广泛存在的运营管理难、用户使用难、资源融合难等问题。
SCOW 可同时纳管基于不同硬件厂商、不同软件栈建设的包括 HPC 算力和 AI 算力在内的各类异构算力资源,向用户和管理员提供便捷完整的算力资源管理和使用功能。
- 开源仓库:https://github.com/PKUHPC/OPENSCOW
- 推广部署:已覆盖全国 23 个省市、70+ 个算力中心,开源下载量 53000+
一体化架构¶
鹤思 + SCOW 的一体化方案架构分为四层:
应用层¶
| 模块 | 功能 |
|---|---|
| 小蒜 大模型智能体平台 | RAG 知识库应用、Agent 智能体应用 |
| MaaS 大模型服务平台 | 融合本地算力与云服务,提供一体化大模型能力 |
| ShadowDesk 远程桌面 | 高性能远程桌面,支持 EDA、CAE 仿真、数据可视化等 |
| 交互式应用 | VSCode、Jupyter、模型训练等可视化交互应用 |
平台层 — SCOW 算力平台系统¶
SCOW 提供统一用户界面,涵盖三大管理域:
运营管理
| 功能 | 说明 |
|---|---|
| 计费收费 | 灵活的计费策略和收费管理 |
| 作业管理 | 全平台作业监控和管理 |
| 用户管理 | 多级用户体系管理 |
| 账户管理 | 账户创建、充值、消费记录 |
| 身份认证 | 对接 LDAP 等认证系统 |
| 权限管理 | 基于角色的精细化权限控制 |
资源使用
| 功能 | 说明 |
|---|---|
| 在线作业提交 | Web 界面提交和管理作业 |
| 在线资源申请 | 自助式资源申请流程 |
| 在线 Shell 平台 | 浏览器内终端访问 |
| 跨集群文件传输 | 多集群间数据传输 |
| 可视化桌面 | 远程图形化桌面 |
| 可视化应用 | 图形化科研应用 |
资源管理
| 功能 | 说明 |
|---|---|
| 资源虚拟化 | 支持基于 HPC 环境的虚拟化功能 |
| 资源授权 | 精细化资源授权管理 |
| 资源配置 | 灵活的资源配置策略 |
调度层 — 鹤思算力调度系统¶
鹤思作为调度内核,提供:
- 高并发调度:每秒调度超 1 万个任务
- 层级权限管控:树状层级用户/账户管理
- 异构资源融合:统一纳管国内外各类 CPU 和加速卡
- 兼容性:兼容 Slurm、LSF
硬件层¶
支持接入多种算力资源:
- 超算资源:基于 Slurm、鹤思等调度器管理
- 智算资源:基于鹤思、K8s 管理
- 量子资源:通过量子接入系统
- 云资源:公有云、私有云算力
功能亮点¶
图形化界面,使用方便¶
在算力资源使用方面,SCOW 提供基于 Web 页面的多个功能,降低了用户使用门槛,让 Linux 小白用户也能顺利使用算力资源。
功能丰富,管理便捷¶
在算力中心管理运营方面,SCOW 提供覆盖算力资源全生命周期的全流程管理能力,帮助算力中心快速建立管理和运营制度。
标准化平台,支持算力融合¶
支持接入 Slurm、CraneSched、K8s 等多种资源调度器,可纳管各类算力资源。同时面向算力网络提供标准化管控接口,支撑算力融合。
开放中立,支持开源¶
SCOW 独立于各家厂商,帮助算力中心打破供应商锁定。发起并维护基于木兰宽松协议开源的社区项目 OPENSCOW。
超·智·量·云四算融合¶
在同一平台接入和管理超算、智算、量子计算和云计算资源,支持各种计算场景,在国内率先实现超智量云四算融合。
快速部署,开箱即用¶
能够快速在新建集群部署上线或接入现有集群,部署几乎无侵入,可与其他管理平台共存。
算力网络融合 — XSCOW¶
在 SCOW 基础上,XSCOW 算力网络融合平台进一步实现跨域算力融合:
- 资源管理:跨算力中心的统一资源管理
- 权限管理:统一认证和权限体系
- 任务调度:跨域任务调度和分发
- 计费管理:统一计费和支付管理
- 全流程监控:端到端监控和审计
应用案例:教育部高校智算融合共享平台,由教育部教育管理信息中心牵头成立,旨在推进整合各地高校超算中心。尖山塔图作为技术支撑方,已有 10 所高校资源和 16 所高校用户接入平台。
典型部署案例¶
北京大学未名卓越一号集群¶
全国产华为设备,价值超 3000 万。采用完整的鹤思 + SCOW 一体化方案:
- 应用层:小蒜智能问答助手 + ShadowDesk 远程桌面 + 交互式应用(VSCode、Jupyter 等)
- 平台层:SCOW 算力平台系统(用户体系、作业管理、文件管理、计费管理、应用管理、镜像与模型管理、日志管理、Shell 终端)
- 调度层:鹤思算力调度系统(高并发调度、层级权限管控、异构资源融合、兼容 Slurm/LSF/K8s/OpenPBS)
- 硬件层:OpenEuler 国产开源操作系统 + RoCE 高速网络 + 昇腾训练 NPU(910B)+ 昇腾推理 NPU(310P)+ 鲲鹏 CPU(ARM)
某芯片设计公司¶
自 2024 年起,某芯片设计公司(约 200 人规模)引入了"鹤思 + SCOW"一体化解决方案管理其新建集群。该方案成功解决了旧有商业软件因资源管控机制不合理而导致计算节点经常超载的问题,并通过深度适配主流 EDA 工具,为各类芯片设计任务提供了精准、高效的支持。
相关链接¶
| 项目 | 链接 |
|---|---|
| SCOW 开源仓库 | https://github.com/PKUHPC/OPENSCOW |
| 鹤思后端仓库 | https://github.com/PKUHPC/CraneSched |
| 鹤思前端仓库 | https://github.com/PKUHPC/CraneSched-FrontEnd |
| 塔图官网 | https://csjstt.com |