我正在“管理”一个基于 Rocks Cluster 的小型集群(4 个节点)。最近重新启动后,从节点似乎都决定自发地重新安装其操作系统,擦除其整个配置、infiniband 支持、安装的软件等。
我无法理解为什么系统会这样做,而且这毫无帮助。以前有人发生过这种情况吗?是什么原因造成的呢?
对于踢球者来说,由于我可能已经放弃将节点重建为它们应有的规格,那么一旦从属设备处于工作状态,如何备份它们呢?
附加信息:
此外,根据尝试的 ping 操作,头节点似乎基本上无法访问互联网。它似乎也无法 ping 本地 DNS 地址(192.168.0.1)
答案1
事实证明,至少在某些情况下,Rocks 默认情况下会在每次启动时在从属节点上重新安装自身(1)。据推测,其目的是集群始终处于开启状态,并且重新启动可能意味着进行了一些更改,这些更改将受益于重新安装。对于偶尔使用的系统,这是不合适的,因为不可能配置所有安装后脚本来完成完全重新安装。避免重新安装的方法是执行:
rocks run host compute "chkconfig rocks-grub off"
这会在“计算”组中的所有从属节点上执行该函数,从而禁用重新安装功能。
在我的例子中,从属节点设置为首先从本地驱动器启动,避免自动重新安装。我相信触发它的是强制断电损坏了本地磁盘,这样在下次启动时,本地损坏的磁盘将无法启动并移交给从头节点获取重新安装指令的 PXE 启动。强制关闭电源是由某种未知的东西中断了shutdown now
从属设备上的运行而引起的。物理断电就可以让它们关闭。我现在使用shutdown -h now
它似乎可以克服任何中断香草关闭的问题。