跳到主要内容

自定义部署

1. 如何修改节点私网IP

本方案各节点IP使用的是private_network模式(Host-Only),若不与其他虚机IP冲突,可不需要修改直接使用默认即可。如需要修改节点IP,可参照如下操作:

(1) Vagrantfile修改:

通过修改Vagrantfile文件vm_list下各节点的eth1属性,修改集群中各节点 使用的IP,需保证设置的各节点IP在同一局域网内。

(2) slurm配置文件修改:

  • slurm\slurm.conf文件中的nodes配置部分,将各节点IP修改为与vm_list中配置的一致;
  • slurm\ldap_client.sh文件中ServHost改为slurm节点IP;
  • slurm\nfs_client.sh文件中的192.168.88.101改为slurm节点IP。

(3) OpenSCOW配置文件修改:

  • scow\scow-deployment\config\auth.yml文件中的ldap.url的IP改为slurm节点IP;
  • scow\scow-deployment\config\mis.yaml文件中fetchJobs.db.host改为scow节点IP;
  • scow\scow-deployment\config\clusters\hpc01.yaml文档中slurm.mis.managerUrl改为slurm节点IP。

(4) export job配置文件修改:

scow\export-jobs\config.py文件中的cluster_db_conf.host改为slurm节点IP,mgt_db_conf.hostscow节点IP。

以上配置修改完成之后执行部署命令:

vagrant up

2. 如何新增计算节点

以添加计算节点cn02为例,Vagrantfile文件vm_list中复制一份cn01的配置,并做如下修改:

    {
:name => "cn02",
:eth1 => "192.168.88.104",
:mem => "4096",
:cpu => "4",
:sshport => 22234,
:box => "icode/slurm_compute",
:role => "slurm",
:is_service_node => false
}

注意修改name,eth1,sshport的值,可不修改其他属性值。

slurm\slurm.conf文件中修改计算节点和分区配置信息部分:

# NODES 配置部分将cn02节点加入 
NodeName=cn0[1-2] NodeAddr=192.168.88.10[3-4] CPUs=4 CoresPerSocket=2 ThreadsPerCore=1 RealMemory=3500 Procs=1 State=UNKNOWN

# PARTITIONS 配置部分将cn02节点加入
PartitionName=compute Nodes=cn0[1-2] Default=YES MaxTime=INFINITE State=UP

scow\scow-deployment\config\clusters\hpc01.yaml修改节点和分区配置:

# ...
slurm:
loginNodes:
- name: login
address: 192.168.88.102

partitions:
- name: compute
# 分区内节点数修改为2
nodes: 2

# ...

以上配置修改完成之后执行部署命令:

vagrant up