之前在Windows下用虚拟机跑程序,后来被学长鄙视,就改用linux平台,结果由于种种原因virtualbox一装虚拟机就挂掉,所以只好在物理节点上做实验了。
其实和Ubuntu下面差不多的Ubuntu下配置Slurm,没有那么简单的apt-get使用,就从源码编译。
参考:http://www.linuxidc.com/Linux/2012-10/71552.htm
munge的路径好像不太一样,不是/xxxx而是/usr/local/xxxx。后面还会说到这个问题。
SLURM会提示出错
plugin_load_from_file: dlopen(/usr/local/lib/slurm/crypto_munge.so): libmunge.so.2: cannot open shared object file: No such file or directory
还是缺munge的包,上网搜一个libmunge.so.2下就好了.
查看版本号的方式
uname -a
cat /etc/issue
lsb_release -a
cat /etc/RedHat-release
不过我用这几个命令出来的结果不一样啊,有的说是EL4,有的说是EL5,所以我就下了旧版本的库。。。
运行slurm报错没有找到/var/run/munge/munge.socket.2。
呵呵。
到/var/run里面去建个链接到/usr/local/var/run/munge就好了。
因为是物理机器,所以比虚拟机的环境要复杂一点点。比如我的几个节点的时间是不同步的。这样munge就不能正常工作了。
date
显示时间
date -s “Sep 15 12:30:07″
修改时间为9月15xxxxxx
因为每台机器都不一样,所以在每台机器上建的用户tomxice的uid和gid都不同。。。然后munge又不干了。
usermod -u uid username 改变用户uid
groupmod -g gid groupname 改变组的gid
usermod -g groupname username 将用户加到组里(我很纳闷为什么我的tomxice建出来不在tomxice组里面)
似乎就可以工作了,OY~