跳转至

存·算·用融合超智算解决方案

鹤思提供 HTC+HPC+AI 超智一体化融合方案,实现存储、算力、使用的彻底融合,一套集群满足所有计算业务场景。


背景与痛点

当前算力调度市场存在以下关键问题:

调度系统被美国垄断

  • 公开可查的 12 个国家超算中,使用美国 Slurm 系统 11 个、LSF 系统 1 个
  • 排名靠前的 22 所高校中,使用美国 Slurm 系统 15 个、LSF 系统 5 个、PBS 系统 2 个
  • 智算领域,Kubernetes(K8s)处于事实垄断地位

超算智算融合难

超算与智算独立建设导致资源割裂,算力、存储、数据难以共享,形成资源孤岛,造成浪费。

国产生态兼容差

国产芯片生态适配成本高,国产平台软件支持不完善。

算力系统性能低

高吞吐下响应时延高,系统作业吞吐效率低。


传统方案 vs 鹤思融合方案

对比维度 传统方案 鹤思融合方案
调度系统 超算用 Slurm/LSF,智算用 K8s,两套系统 鹤思统一调度超算 + 智算算力资源
存储 超算存储与智算存储分离 超智统一存储,数据资源池化
算力门户 HPC 门户和 AI 门户分离 统一门户(SCOW)对接超算和智算
资源共享 算力、存储、数据难以共享,形成孤岛 算力、存储、数据资源池化,高效共享
任务调度 多平台协同难度大,数据流转效率低 统一调度系统全局协同,高效顺畅
运维管理 管理系统分散,运维复杂度高 一体化平台简化运维,降低管理成本
用户体验 用户认证使用复杂 统一用户认证与资源管理

存·算·用三层融合

算力融合("算")

鹤思同时支持超算和智算两大计算场景:

超算场景

鹤思是自研原生超算调度系统,通过 Slurm & LSF Wrapper 兼容所有超算应用:

应用领域 典型软件
大气海洋环境 WRF、OpenFOAM、CMAQ
天文地球物理 CESM、iCESM、Fds、Salome
工业设计制造 ABAQUS、Ansys Fluent
新能源新材料 MPB、CP2K、GROMACS

智算场景

鹤思自研 ccon 命令,原生支持容器化 AI 任务:

  • 支持 DeepSeek、Qwen、Llama、CPMBee、ChatGLM 等大模型训练与推理
  • 支持 Docker、Podman、containerd 等 OCI 标准容器及 Singularity
  • 支持跨节点容器任务,并实现容器内部组网通信
  • 支持容器镜像自动拉取
  • 支持容器启动、停止、进入容器、查看日志等完整生命周期管理

HTC 场景

支持芯片设计等对调度系统吞吐量要求极高的高通量计算(High Throughput Computing)应用场景。

存储融合("存")

传统方案中超算存储和智算存储各自独立,数据无法共享。鹤思融合方案实现超智统一存储:

  • 一套存储系统同时服务超算和智算任务
  • 容器任务可直接访问共享文件系统(支持 Fake Root 特性)
  • 数据资源池化,消除数据搬运开销

使用融合("用")

通过鹤思 + SCOW 统一平台实现使用层面的融合:

  • 统一用户认证:一套账号体系访问所有资源
  • 统一资源管理:一个平台管理超算和智算资源
  • 统一任务提交:用户无需关心底层是超算还是智算
  • 统一监控计费:全生命周期闭环管理

鹤思容器编排

鹤思的容器编排采用命令式编排(仿 Slurm 风格),用户可以混合宿主机和容器内的操作,灵活性高:

#!/bin/bash
#CBATCH --job-name=container-job
#CBATCH -p CPU
#CBATCH -N 1
#CBATCH --pod

echo "Job started on $(hostname)"

# 运行第一个容器任务
ccon run python:3.11 python -c "print('Step 1: Data preprocessing')"

# 运行第二个容器任务
ccon run python:3.11 python -c "print('Step 2: Model training')"

echo "Job completed"

与 K8s 的对比

对比维度 鹤思 K8s
编排方式 命令式(仿 Slurm) 声明式(YAML)
灵活性 可混合宿主机和容器操作 需开发 Controller
概念映射 Pod → Job,Container → Step 原生 Pod/Container
适用场景 HPC + AI 融合场景 云原生微服务场景

自研调度算法

鹤思自研多项创新算法,全方位优化调度效率与能效。

ORA 作业时间预测算法

发表于 CCF 推荐 B 类会议 ICS(2025)

  • 首次使用大语言模型(LLM)帮助集群作业预测用时
  • 使用在线更新的历史作业向量数据库,缓解作业分布持续变化导致预测准确率低的问题
  • 使用基于 diff 的上下文学习,高亮历史作业与当前作业存在区别的部分,缓解检索到的历史样本重复内容过高限制预测准确性的问题
  • 作业用时预测准确率提升 41%

TSMF 公平共享调度算法

发表于 CCF 推荐中文 B 类期刊《计算机科学》(封面论文)

  • 在北京大学高性能计算校级公共平台 3 个真实集群测试
  • 基于 GBDT(Gradient Boosting Decision Tree)的作业时间预测
  • 作业平均排队时间减少 13.6 分钟
  • 在集群 90% 高负载情况下,CPU 利用率可提升至 97.3%
  • 用户排队体验指标(越小越好)平均下降 50.53%

EcoSched 节能调度算法

自动化电源控制调度算法:

  • 总集群能耗降低:经模拟实验,在未采用优化电源控制算法的情况下,集群能耗为 22,220.29 kWh;EcoSched 将总集群能耗降低至 4,746.64 kWh,总能耗节省 78.64%
  • 电力成本节省:经模拟实验,实现约 10,484 RMB 的电力成本节省,大幅降低了运行开销
  • 资源利用率提升:通过优化调度策略,显著提升了集群的资源利用率,减少了资源闲置时间

异构资源融合

鹤思全面适配国内外主流硬件,实现真正的异构资源统一纳管:

维度 支持范围
架构 X86、ARM、RISC-V
CPU(国外) Intel、AMD
CPU(国内) 飞腾、曙光、华为鲲鹏
加速卡(国外) Nvidia GPU、AMD GPU
加速卡(国内) 华为昇腾、海光、寒武纪 MLU、天数智芯、昆仑芯、沐曦、摩尔线程
操作系统(国外) CentOS、Ubuntu、Rocky Linux
操作系统(国内) OpenEuler、银河麒麟

应用场景

鹤思存·算·用融合方案适用于多种行业和场景:

行业领域 典型应用
航空航天 空气动力学仿真、飞行器设计
智能制造 工业仿真、数字孪生
生物医药 分子动力学模拟、药物设计
地球物理 大气模拟、气候预测
新能源材料 电池材料研究、催化剂设计
智能驾驶 自动驾驶模型训练
智慧城市 城市大脑、交通优化
智慧医疗 医学大模型、影像分析
智慧金融 金融 AI 助手、风控模型
智慧教育 教育大模型、个性化学习
芯片设计 EDA 工具链、芯片验证

相关成果

  • 入选 2024 年工信部"典型应用案例"及"重点推荐应用案例"双项名单
  • 入选教育部信创应用案例集
  • 已获得多项发明专利和软件著作权
  • 参与制定 IEEE 国际标准和多项国家标准
  • 已在全国 8 个省市、10+ 个算力中心部署使用