作业
借助作业功能,您可以直接在浏览器上点击提交作业来使用超算集群,提交成功后,可以在未结束作业中看到该作业的运行状态等详细信息,并在所有作业中看到作业的执行结果。
分区(队列)
作业需在特定分区(队列)中运行,一般不同分区(队列)允许的资源不一样,比如单作业核数等。
我们将集群分区分为两类:CPU分区和GPU分区。
CPU分区是指仅提供CPU资源的分区;
GPU分区是同时提供GPU资源和CPU资源的分区,其CPU核数根据GPU卡数按比例分配。
系统同时支持两种分区。您只需要在初始化系统时增加对应的配置,就可以让用户在浏览器提交作业时根据自己的需求选择不同的分区提交作业。分区与集群的配置详见集群配置文件。
提交作业
用于用户填写作业信息并提交到超算系统计算,同时支持将作业信息保存为模板方便后续使用。如下图所示,分别在CPU分区和GPU分区上提交作业作业。
如果使用GPU分区的节点,有区别的选项如下图(分区可能为其它名字而非GPU):
主要参数说明:
参数 | 说明 | 备注 |
---|---|---|
集群 | 指定本次作业在哪个集群上运行 | 选项由集群配置文件里指定 |
作业名 | 为本次作业命名 | - |
命令 | 作业命令 | - |
账户 | 指定本次作业的扣款账户 | 选项为当前用户关联账户 |
分区 | 指定本次作业想要在哪个分区上计算 | 选项在集群配置文件里指定,分区的选择影响CPU/GPU相关参数 |
QOS | 选择作业的服务质量 | 选项在集群配置文件里指定 |
节点数 | 申请的节点数 | 上限为当前分区节点数 |
单节点核心数 | 每个节点上申请的CPU核心数 | CPU分区单节点核心数为输入值;如果是GPU分区,此选项不展示,通过计算得到:GPU分区单节点核心数=节点总核心数 *(单节点GPU卡数/单节点总GPU卡数) |
单节点GPU卡数 | 每个节点上申请的GPU卡数 | 仅GPU分区展示 |
最长运行时间 | 本次作业的最长计算时间 | - |
工作目录 | 指定作业相关文件的存储路径 | - |
标准输出文件 | 指定作业标准输出文件的文件名 | - |
错误输出文件 | 指定作业错误输出文件的文件名 | - |
总节点数 | 申请的节点数 | 总节点数=节点数 |
总核心数 | 申请的总核心数 | 总核心数(CPU分区)=节点数 * 单节点核心数;总核心数(GPU分区)=节点数 * 单节点总核心数 *(单节点GPU卡数/单节点总GPU卡数) |
总卡数 | 申请的GPU卡总数 | 仅GPU分区展示;总卡数 = 节点数 * 单节点GPU卡数 |
总内存容量 | 申请的总内存容数 | 总内存容量 = 节点数 * 单节点核心数 *(单节点内存数/单节点总核心数) |
备注 | 备注信息 | - |
保存为模板 | 将本次作业保存为模板 | - |
生成的slurm调度器脚本中参数取值:
核心数 -c 取单节点核心数;
内存 --mem 取总内存容量;
GPU卡数 --gres=gpu: 取单节点GPU卡数。
※注意:上面的计算若未整除,结果皆向下取整。