为什么要将集群节点配置为内存不足时重新启动？

Question 1

重新启动节点可确保在分配下一个作业之前节点正常工作。此外，当您运行内存不足的节点并开始交换时，它会变慢并可能变得无响应。在这种情况下，他们可能会使用 IPMI 之类的东西来对节点进行电源循环。

Answer

重新启动节点可确保在分配下一个作业之前节点正常工作。此外，当您运行内存不足的节点并开始交换时，它会变慢并可能变得无响应。在这种情况下，他们可能会使用 IPMI 之类的东西来对节点进行电源循环。

Question 2

根据您所描述的环境以及通过您提供的链接可以找到的一些信息，听起来您使用的集群被配置成无盘或无状态系统，这意味着整个操作系统是从远程存储的操作系统映像加载到内存中的。

确保在多个节点上正确终止并行作业可能是一个复杂的过程，并且确保正确完成终止和清理通常比简单地重新启动节点花费更多时间。在开始作业之前使节点处于干净状态是确保集群最高性能的必要条件。

以这种方式配置节点的具体原因还取决于集群上采用的配置和资源管理系统

Answer

根据您所描述的环境以及通过您提供的链接可以找到的一些信息，听起来您使用的集群被配置成无盘或无状态系统，这意味着整个操作系统是从远程存储的操作系统映像加载到内存中的。

确保在多个节点上正确终止并行作业可能是一个复杂的过程，并且确保正确完成终止和清理通常比简单地重新启动节点花费更多时间。在开始作业之前使节点处于干净状态是确保集群最高性能的必要条件。

以这种方式配置节点的具体原因还取决于集群上采用的配置和资源管理系统

相关内容