跳到主要内容

作业

借助作业功能,您可以直接在浏览器上点击提交作业来使用超算集群,提交成功后,可以在未结束作业中看到该作业的运行状态等详细信息,并在所有作业中看到作业的执行结果。

分区(队列)

作业需在特定分区(队列)中运行,一般不同分区(队列)允许的资源不一样,比如单作业核数等。

我们将集群分区分为两类:CPU分区GPU分区

CPU分区是指仅提供CPU资源的分区;

GPU分区是同时提供GPU资源和CPU资源的分区,其CPU核数根据GPU卡数按比例分配。

系统同时支持两种分区。您只需要在初始化系统时增加对应的配置,就可以让用户在浏览器提交作业时根据自己的需求选择不同的分区提交作业。分区与集群的配置详见集群配置文件

提交作业

用于用户填写作业信息并提交到超算系统计算,同时支持将作业信息保存为模板方便后续使用。如下图所示,分别在CPU分区和GPU分区上提交作业作业。

submitJob

如果使用GPU分区的节点,有区别的选项如下图(分区可能为其它名字而非GPU):

submitGPUJob

主要参数说明:

参数说明备注
集群指定本次作业在哪个集群上运行选项由集群配置文件里指定
作业名为本次作业命名-
命令作业命令-
账户指定本次作业的扣款账户选项为当前用户关联账户
分区指定本次作业想要在哪个分区上计算选项在集群配置文件里指定,分区的选择影响CPU/GPU相关参数
QOS选择作业的服务质量选项在集群配置文件里指定
节点数申请的节点数上限为当前分区节点数
单节点核心数每个节点上申请的CPU核心数CPU分区单节点核心数为输入值;如果是GPU分区,此选项不展示,通过计算得到:GPU分区单节点核心数=节点总核心数 *(单节点GPU卡数/单节点总GPU卡数)
单节点GPU卡数每个节点上申请的GPU卡数仅GPU分区展示
最长运行时间本次作业的最长计算时间-
工作目录指定作业相关文件的存储路径-
标准输出文件指定作业标准输出文件的文件名-
错误输出文件指定作业错误输出文件的文件名-
总节点数申请的节点数总节点数=节点数
总核心数申请的总核心数总核心数(CPU分区)=节点数 * 单节点核心数;总核心数(GPU分区)=节点数 * 单节点总核心数 *(单节点GPU卡数/单节点总GPU卡数)
总卡数申请的GPU卡总数仅GPU分区展示;总卡数 = 节点数 * 单节点GPU卡数
总内存容量申请的总内存容数总内存容量 = 节点数 * 单节点核心数 *(单节点内存数/单节点总核心数)
备注备注信息-
保存为模板将本次作业保存为模板-

生成的slurm调度器脚本中参数取值

核心数 -c 取单节点核心数;

内存 --mem 取总内存容量;

GPU卡数 --gres=gpu: 取单节点GPU卡数。

※注意:上面的计算若未整除,结果皆向下取整