调度系统安装配置手册.doc
《调度系统安装配置手册.doc》由会员分享,可在线阅读,更多相关《调度系统安装配置手册.doc(8页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、Torque + Maui 配置手册之抛砖引玉篇本文将以应用于实际案例(南航理学院、复旦大学物理系、宁波气象局)中的作业调 度系统为例,简单介绍一下免费开源又好用的 Torque+Maui 如何在曙光服务器上进行安装 和配置,以及针对用户特定需求的常用调度策略的设定情况,以便可以起到抛砖引玉的作 用,使更多的人关注 MAUI 这个功能强大的集群调度器(后期将推出 SGE+MAUI 版本)。 本文中的涉及的软件版本 Torque 版本: 2.1.17 maui 版本:3.2.6p17。1. 集群资源管理器 Torque1.1. 从源代码安装 Torque其中 pbs_server 安装在 nod
2、e33 上,TORQUE 有两个主要的可执行文件,一个是主节点上 的 pbs_server,一个是计算节点上的 pbs_mom,机群中每一个计算节点(node1node16) 都有一个 pbs_mom 负责与 pbs_server 通信,告诉 pbs_server 该节点上的可用资源数以及作 业的状态。机群的 NFS 共享存储位置为/home,所有用户目录都在该目录下。1.1.1. 解压源文件包在共享目录下解压缩 torque # tar -zxf torque-2.1.17.tar.gz 假设解压的文件夹名字为: /home/dawning/torque-2.1.171.1.2. 编译设置#
3、./configure -enable-docs -with-scp -enable-syslog 其中, 默认情况下,TORQUE 将可执行文件安装在/usr/local/bin 和/usr/local/sbin 下。其余的配置 文件将安装在/var/spool/torque 下 默认情况下,TORQUE 不安装管理员手册,这里指定要安装。 默认情况下,TORQUE 使用 rcp 来 copy 数据文件,官方强烈推荐使用 scp,所以这里设定- -with-scp. 默认情况下,TORQUE 不允许使用 syslog,我们这里使用 syslog。1.1.3. 编译安装# make # mak
4、e installServer 端安装设置: 在 torque 的安装源文件根目录中,执行 #./torque.setup root 以 root 作为 torque 的管理员账号创建作业队列。计算节点(Client 端)的安装: 由于计算节点节点系统相同,因而可以用如下 SHELL script (脚本名字为 torque.install.sh)在 其余计算节点上安装:创建 torque.install.sh 脚本 #vi torque.install.sh #!/bin/sh cd /home/dawning/torque-2.1.17 make install 使用如下命令:npssh
5、-on node1.32 sh /home/dawning/torque.install.sh 将在每个节点上安 装 TORQUE。1.1.4. TORQUE 配置1.1.4.1 在计算节点上配置 TORQUE: 在每个计算节点,必须配置 MOM daemon 信任 pbs_server daemon,可以通过编辑 /var/spool/torque/server_name 来实现,把 node33 写入该文件即可。 #cat /var/spool/torque/server_name node33 其余的配置参数写入/var/spool/torque/mom_priv/config 文件。配
6、置计算节点的数据管理,数据管理允许作业的数据在计算节点和 PBS_Server 之间传递。 对于共享文件系统,如 NFS,可以通过在 mom_priv/config 中用$usecp 参数来指定如何映 射用户的根目录。 $usecp *:/home /home这里集群的 mom_priv/config 内容如下: # MOM server configuration file # if more than one value, separate # rule is defined by the name# host allowed to connect to mom server on pri
7、vileged port # note: IP address of host running pbs_server it by comma. $pbsserver 10.0.68.33 $clienthost node33 #ideal processor load and max processor load $ideal_load 7 $max_load 8 # host allowed to connect to Mom server on unprivileged port #Specifies hosts which can be trusted to access mom ser
8、vices as non-root. #By default, no hosts are trusted to access mom services as non-root. $restricted *.node33 # Log event : # 0x1ff : log all events + debug events # 0x0ff : just all events $logevent 0x0ff # alarm if the script hang or take very long time to execute $prologalarm 30 # Specifies which
9、 directories should be staged$usecp *:/home /homeServer 端资源管理配置 指定计算节点 为了让 pbs_server 与每个计算节点进行通信,它需要知道要和那些机器联络,集群中的每 个计算节点都必须在 nodes 文件中指定,一个 1 行。 #rsh node33 #cd /var/spool/torque/server_priv #for i in seq 1 32;do echo node$i np=2;done nodes #cat nodes node1 np=8 node2 np=8 node3 np=8 node4 np=8 n
10、ode5 np=8 node6 np=8 node7 np=8 node8 np=8 node9 np=8 node10 np=8 node11 np=8 node12 np=8 node13 np=8 node14 np=8 node15 np=8 node16 np=8 node17 np=8 node18 np=8 node19 np=8 node20 np=8 node21 np=8 node22 np=8 node23 np=8 node24 np=8 node25 np=8 node26 np=8 node27 np=8 node28 np=8 node29 np=8 node30
11、 np=8 node31 np=8 node32 np=8 np=8 是说每个节点有 8 个 CPU(其余的以线程来跑)。指定作业的提交节点为 node33,node34,node35: rootnode33 # qmgr -c set server submit_hosts = node33 rootnode33 # qmgr -c set server submit_hosts += node34 rootnode33 # qmgr -c set server submit_hosts += node351.1.5. 系统自动启动脚本1.Server 的系统启动脚本/etc/init.d/
12、pbs_server该脚本单独启动/重新启动/暂停/查看状态 TORQUE 中 Server 的守护进程 #cp contrib/init.d/pbs_server /etc/init.d/ 编辑 pbs_server: #vi /etc/init.d/pbs_server PBS_DAEMON=/usr/local/sbin/pbs_server PBS_HOME=/var/spool/torque 要确保这两个变量设定正确。2.Mom 系统启动脚本/etc/init.d/pbs_mom,在计算节点执行。 该脚本单独启动/重新启动/暂停/查看状态 TORQUE 中 Mom 的守护进程。 #c
13、p contrib/init.d/pbs_mom /etc/init.d/ #vi /etc/init.d/pbs_mom PBS_DAEMON=/usr/local/sbin/pbs_mom PBS_HOME=/var/spool/torquePBS_SERVER 端测试: 重启 pbs_server,使刚才的配置生效。 /etc/init.d/pbs_server restart # verify all queues are properly configured qstat -q # view additional server configuration qmgr -c p s #
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 调度 系统 安装 配置 手册
限制150内