1.并行所使用的节点及核心配置文件
PATH/ms42/share/data/machines.LINUX
格式为:
节点名称:核心数 #(每cpu核心数×cpu数)
node1:8 # (Intel(R) Xeon(R) CPU E5430 @ 2.66GHz 2666 MHz 为4核cpu,节点1上有两个E5430)
2.Gateway的配置文件
PATH/ms42/Gateway/root_default/dsd/conf/gw-info.sbd
修改
cpucorestotal=8 #总核心数
corespercpu=4
具体参考第2页的内容
以及 Materials Studio Online Help 中 Installation and licensing
一、 背景介绍
Materials Studio 是一个采用服务器/客户机模式的软件环境,它为你的 PC 机带来世界最先进的材料模拟和建模技术。
Materials Studio 使你能够容易地创建并研究分子模型或材料结构,使用极好的制图能力来显示结果。与其它标准PC 软件整合的工具使得容易共享这些数据。
Materials Studio的服务器/客户机结构使得你的Windows NT/2000/XP,Linux和UNIX 服务器可以运行复杂的计算,并把结果直接返回你的桌面。
Materials Studio 采用材料模拟中领先的十分有效并广泛应用的模拟方法。
Accelry’s的多范围的软件结合成一个集量子力学、分子力学、介观模型、分析工具模拟和统计相关为一体容易使用的建模环境。卓越的建立结构和可视化能力和分析、显示科学数据的工具支持了这些技术。
无论是使用高级的运算方法,还是简单地利用Materials Studio 增强你的报告或演讲,你都可以感到自己是在用的一个优秀的世界级材料科学与化学计算软件系统。
二、 软件版本
目前最新版本为4.4,本文档以4.3+sp1为例进行介绍。
三、 软件的安装设置
1、安装HPMPI
可以用安装光盘中的hpmpi,或者其他途径获得的更新版的hpmpi,安装采用rpm方式.
rpm –ivh hpmpi-2.03.01.00-20090402r.x86_64.rpm
配置环境变量:
cat ~/.bashrc
######HPMPI##########
export MPI_CC=icc
export MPI_F77=ifort
export MPI_F90=ifort
export MPI_CXX=icpc
MPI_ROOT=/opt/hpmpi
PATH=${MPI_ROOT}/bin:$PATH
MANPATH=${MPI_ROOT}/share/man:$MANPATH
LD_LIBRARY_PATH=${MPI_ROOT}/lib/linux_amd64:$LD_LIBRARY_PATH
export LM_LICENSE_FILE=${MPI_ROOT}/licenses/license.dat:$LM_LICENSE_FILE
export PATH MANPATH LD_LIBRARY_PATH
export MPI_REMSH=/usr/bin/ssh
#
2、Linux服务器版本安装
目前MS有Linux版和Windows版两种,集群上推荐使用Linux版,但是很多用户习惯于在Windows平台下用Gateway的方式提交计算任务,因此,下面还会介绍Windows版的安装。
首先获得安装需要的光盘或者镜像文件(MS43 U.nrg),以及版本相对应License文件(msi.lic)。
将镜像文件挂载
mount MS43 U.nrg /media/ -o loop
cd /media
用普通帐户安装
./Install –t cluster
按照缺省安装至结束,切换到root账号进行配置:
使gateway自启动:
cp /../Accelrys/MaterialsStudio42/Gateway/msgateway_control_18888 /etc/rc.d/init.d
cd /../Accelrys/MaterialsStudio42/Gateway/
/sbin/chkconfig –add msgateway_control_18888
复制你的license文件到/../Accelrys/License_Pack/licenses (目录要与安装License管理软件的目录相一致)
3、Windows服务器版本安装
安装过程略
安装完成后,把msi.lic或msilic.lic拷贝到安装目录的子目录.\LicensePack\Licenses中
4、Linux环境下配置环境变量
cat ~/.bashrc
# .bashrc
# User specific aliases and functions
# Parallel Environment Setting for Materials Studio 4.3
export MS_INSTALL_ROOT=~/Accelrys/MaterialsStudio43/
export DMOL3_DATA=$MS_INSTALL_ROOT/share/Resources/Quantum/DMol3
export DMOL_TMP=~/scratch
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:~/Accelrys/LicensePack/linux/lib/
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$MS_INSTALL_ROOT/lib
export TMPDIR=$DMOL_TMP
export PATH=$PATH:~/Accelrys/MaterialsStudio43/etc/CASTEP/bin/:~/Accelrys/MaterialsStudio43/etc/DMol3/bin/
. ~/Accelrys/LicensePack/etc/lp_profile
eval `~/Accelrys/MaterialsStudio43/share/license/data/lic_setup.sh ~/Accelrys/MaterialsStudio43/ -s sh`
#/public1/soft/MSI/Accelrys/MaterialsStudio43/ -s sh`
5、作业调度方式提交任务
准备算例文件,一般来说包括XX.cell XX.param XX.recpot 几个文件,如果还有其他的参数设置还会有.geom等。
准备作业提交脚本:
cat msi.pbs
#PBS -N model
#PBS -l nodes=2:ppn=8
#PBS -q high
project_name=model
cd $PBS_O_WORKDIR
rm .machine
rm APPFILE
rm $project_name.castep
NSLOTS=`cat ${PBS_NODEFILE} | wc -l`
$MS_INSTALL_ROOT/share/bin/create_appfile.sh -np $NSLOTS -list $PBS_NODEFILE -command “$MS_INSTALL_ROOT/bin/castepexe_mpi.exe $project_name”
/opt/hpmpi/bin/mpirun -ibv -e MPI_REMSH=/usr/bin/ssh -cpu_bind=v –prot -f ./APPFILE
6、Gateway方式提交任务
6.1 配置并行参数
6.1.1 设置/home/demo/msi/Accelrys/MaterialsStudio43/share/data/machines.LINUX
每行一个节点名称,格式如下:
node40:8
node41:8
node42:8
node43:8
node44:8
node45:8
node47:8
node48:8
node49:8
6.1.2 可用CPU总数设置
修改配置文件
cat /home/demo/msi/Accelrys/MaterialsStudio43/etc/Gateway/root_default/dsd/conf/gw-info.sbd
cpucorestotal=72
cat /home/demo/msi/Accelrys/MaterialsStudio43/etc/Gateway/root_default/dsd/conf/gwparams.cfg
gw_cpucorestotal=72
6.1.3 修改mpi运行参数,支持ib
修改配置文件
cat /home/demo/msi/Accelrys/MaterialsStudio43/etc/Gateway/root_default/dsd/conf/gw-info.sbd
mpicommand=/opt/hpmpi/bin/mpirun -ibv -e MPI_REMSH=/usr/bin/ssh -cpu_bind=v -prot -f APPFILE
cat /home/demo/msi/Accelrys/MaterialsStudio43/etc/Gateway/root_default/dsd/conf/gwparams.cfg
gw_mpicommand=/opt/hpmpi/bin/mpirun -ibv -e MPI_REMSH=/usr/bin/ssh -cpu_bind=v -prot -f APPFILE
6.1.4 Web页面
登录安装节点
以root方式
service msgateway_control_18888 start
在浏览器中填入 http://10.0.38.203:18888/
在Gateway Date中可以做相应的修改。
用户控制(用户须输入帐户密码才能提交任务):
gwauthentication minimum|password
minimum: 不需要输入帐户密码
password: 需要输入帐户密码
gwusers –add ID 添加用户
gwusers –remove ID 删除用户
gwusers –update ID 修改ID的密码
gwusers –list 列出所有用户
传输协议控制:gwtransport sslon|ssloff
6.2 任务提交
作业提交时指定Run in parallel on 4 of 80 processors,gateway就会在资源池中寻找4个处理器内核,通过hpmpi发起并行作业。
7、
四、 注意事项
1、本文命令、代码和超链接采用斜体五号字表示
2、在所以参与计算的节点根目录上增加/scratch/,并设置开放的权限
mkdir /scratch
chmod 777 /scratch
3、Segment fault等错误产生或作业无法提交时
vi /etc/security/limits.conf
* hard memlock unlimited
* soft memlock unlimited
* hard stack unlimited
* soft stack unlimited
* hard as unlimited
* soft as unlimited
4、报sharememory错误时
sysctl -w kernel.shmmax=64000000
并修改/etc/sysctl.conf
增加kernel.shmmax=64000000
5、其他