我有两台运行 Ubuntu 12.04 桌面版的 PC,通过 1 千兆以太网交换机连接。我想创建一个 2 节点集群并配置 Torque 以在两个节点上提交和调度作业。
请注意,我对跨节点运行 MPI 类型的作业不感兴趣。我的计算将一次在一个节点上运行,但我不想等待并在作业完成后手动提交新作业,而是想使用 qsub 提交多个作业并将它们排队,直到释放节点。
我想我的问题可以分为两部分
a) 对于我上面描述的系统,最佳的集群设置是什么?
b) 设置集群后如何设置 Torque。请注意,我已经在每台机器上安装了 Torque。
提前致谢
答案1
设置扭矩并不难,您需要:
torque-server
,torque-scheduler
并torque-client
安装在其中一台计算机中;torque-client
安装在第二个上;- 确保您正在使用主机名,并且主机名可以在您的网络中轻松解析(未使用 IP),
/etc/hosts
如果需要,则强制将其放入您的文件中; - 为了实现无密码访问,您需要在计算机之间设置 ssh 密钥;
- 强烈建议为您的用户提供一个共享的 NFS 主页,或者您可以在计算机之间使用的另一个目录(如果 Torque 可以毫无问题地写入您发送的作业的输出,那就太好了);
/etc/torque/server_name
通过编辑和设置初始扭矩配置/var/spool/torque/server_priv/nodes
;- 使用网络中的每台计算机以及每台计算机中可用的资源(CPU、RAM)设置一个扭矩队列。
完成后,您实际上唯一需要做的就是将作业发送到队列,然后扭矩将确定您的队列中是否有可用作业。
笔记:如果您在此处的任何步骤遇到困难,请使用本网站的搜索功能查找有关该主题的操作方法,如果您在设置扭矩的特定问题上遇到困难,只需打开一个新问题“如何在扭矩中执行 X”。您的问题非常模糊,因此您能得到的唯一答案也非常模糊...