存·算·用融合超智算解决方案¶

鹤思提供 HTC+HPC+AI 超智一体化融合方案，实现存储、算力、使用的彻底融合，一套集群满足所有计算业务场景。

背景与痛点¶

当前算力调度市场存在以下关键问题：

调度系统被美国垄断¶

公开可查的 12 个国家超算中，使用美国 Slurm 系统 11 个、LSF 系统 1 个
排名靠前的 22 所高校中，使用美国 Slurm 系统 15 个、LSF 系统 5 个、PBS 系统 2 个
智算领域，Kubernetes（K8s）处于事实垄断地位

超算智算融合难¶

超算与智算独立建设导致资源割裂，算力、存储、数据难以共享，形成资源孤岛，造成浪费。

国产生态兼容差¶

国产芯片生态适配成本高，国产平台软件支持不完善。

算力系统性能低¶

高吞吐下响应时延高，系统作业吞吐效率低。

传统方案 vs 鹤思融合方案¶

对比维度	传统方案	鹤思融合方案
调度系统	超算用 Slurm/LSF，智算用 K8s，两套系统	鹤思统一调度超算 + 智算算力资源
存储	超算存储与智算存储分离	超智统一存储，数据资源池化
算力门户	HPC 门户和 AI 门户分离	统一门户（SCOW）对接超算和智算
资源共享	算力、存储、数据难以共享，形成孤岛	算力、存储、数据资源池化，高效共享
任务调度	多平台协同难度大，数据流转效率低	统一调度系统全局协同，高效顺畅
运维管理	管理系统分散，运维复杂度高	一体化平台简化运维，降低管理成本
用户体验	用户认证使用复杂	统一用户认证与资源管理

存·算·用三层融合¶

算力融合（"算"）¶

鹤思同时支持超算和智算两大计算场景：

超算场景

鹤思是自研原生超算调度系统，通过 Slurm & LSF Wrapper 兼容所有超算应用：

应用领域	典型软件
大气海洋环境	WRF、OpenFOAM、CMAQ
天文地球物理	CESM、iCESM、Fds、Salome
工业设计制造	ABAQUS、Ansys Fluent
新能源新材料	MPB、CP2K、GROMACS

智算场景

鹤思自研 ccon 命令，原生支持容器化 AI 任务：

支持 DeepSeek、Qwen、Llama、CPMBee、ChatGLM 等大模型训练与推理
支持 Docker、Podman、containerd 等 OCI 标准容器及 Singularity
支持跨节点容器任务，并实现容器内部组网通信
支持容器镜像自动拉取
支持容器启动、停止、进入容器、查看日志等完整生命周期管理

HTC 场景

支持芯片设计等对调度系统吞吐量要求极高的高通量计算（High Throughput Computing）应用场景。

存储融合（"存"）¶

传统方案中超算存储和智算存储各自独立，数据无法共享。鹤思融合方案实现超智统一存储：

一套存储系统同时服务超算和智算任务
容器任务可直接访问共享文件系统（支持 Fake Root 特性）
数据资源池化，消除数据搬运开销

使用融合（"用"）¶

通过鹤思 + SCOW 统一平台实现使用层面的融合：

统一用户认证：一套账号体系访问所有资源
统一资源管理：一个平台管理超算和智算资源
统一任务提交：用户无需关心底层是超算还是智算
统一监控计费：全生命周期闭环管理

鹤思容器编排¶

鹤思的容器编排采用命令式编排（仿 Slurm 风格），用户可以混合宿主机和容器内的操作，灵活性高：

#!/bin/bash
#CBATCH --job-name=container-job
#CBATCH -p CPU
#CBATCH -N 1
#CBATCH --pod

echo "Job started on $(hostname)"

# 运行第一个容器任务
ccon run python:3.11 python -c "print('Step 1: Data preprocessing')"

# 运行第二个容器任务
ccon run python:3.11 python -c "print('Step 2: Model training')"

echo "Job completed"

与 K8s 的对比¶

对比维度	鹤思	K8s
编排方式	命令式（仿 Slurm）	声明式（YAML）
灵活性	可混合宿主机和容器操作	需开发 Controller
概念映射	Pod → Job，Container → Step	原生 Pod/Container
适用场景	HPC + AI 融合场景	云原生微服务场景

自研调度算法¶

鹤思自研多项创新算法，全方位优化调度效率与能效。

ORA 作业时间预测算法¶

发表于 CCF 推荐 B 类会议 ICS（2025）

首次使用大语言模型（LLM）帮助集群作业预测用时
使用在线更新的历史作业向量数据库，缓解作业分布持续变化导致预测准确率低的问题
使用基于 diff 的上下文学习，高亮历史作业与当前作业存在区别的部分，缓解检索到的历史样本重复内容过高限制预测准确性的问题
作业用时预测准确率提升 41%

TSMF 公平共享调度算法¶

发表于 CCF 推荐中文 B 类期刊《计算机科学》（封面论文）

在北京大学高性能计算校级公共平台 3 个真实集群测试
基于 GBDT（Gradient Boosting Decision Tree）的作业时间预测
作业平均排队时间减少 13.6 分钟
在集群 90% 高负载情况下，CPU 利用率可提升至 97.3%
用户排队体验指标（越小越好）平均下降 50.53%

EcoSched 节能调度算法¶

自动化电源控制调度算法：

总集群能耗降低：经模拟实验，在未采用优化电源控制算法的情况下，集群能耗为 22,220.29 kWh；EcoSched 将总集群能耗降低至 4,746.64 kWh，总能耗节省 78.64%
电力成本节省：经模拟实验，实现约 10,484 RMB 的电力成本节省，大幅降低了运行开销
资源利用率提升：通过优化调度策略，显著提升了集群的资源利用率，减少了资源闲置时间

异构资源融合¶

鹤思全面适配国内外主流硬件，实现真正的异构资源统一纳管：

维度	支持范围
架构	X86、ARM、RISC-V
CPU（国外）	Intel、AMD
CPU（国内）	飞腾、曙光、华为鲲鹏
加速卡（国外）	Nvidia GPU、AMD GPU
加速卡（国内）	华为昇腾、海光、寒武纪 MLU、天数智芯、昆仑芯、沐曦、摩尔线程
操作系统（国外）	CentOS、Ubuntu、Rocky Linux
操作系统（国内）	OpenEuler、银河麒麟

应用场景¶

鹤思存·算·用融合方案适用于多种行业和场景：

行业领域	典型应用
航空航天	空气动力学仿真、飞行器设计
智能制造	工业仿真、数字孪生
生物医药	分子动力学模拟、药物设计
地球物理	大气模拟、气候预测
新能源材料	电池材料研究、催化剂设计
智能驾驶	自动驾驶模型训练
智慧城市	城市大脑、交通优化
智慧医疗	医学大模型、影像分析
智慧金融	金融 AI 助手、风控模型
智慧教育	教育大模型、个性化学习
芯片设计	EDA 工具链、芯片验证