使用（可能）无盘从属节点设置低成本开发集群

Question

我已经设置了多个这样的系统。还有一个启动盘/USB 可以访问 DHCP 和 TFTP 站点，将映像加载到您想要临时添加到集群的任何随机系统中，这也很方便。您还可以设置工作站，使其每晚自动重新启动到集群（以获得一些非高峰处理能力），并在白天重新启动到任何其他操作系统。顺便说一句，如果您手动执行此操作，有很多工具包可以提供帮助。

回答您的问题，在这样的系统上进行编译的一般方法是使用所有磁盘在前端进行编译，并将主目录 NFS 从那里安装到计算节点。如果将其放在 tmpfs 上，则每次重新编译时都必须重建一个节点。如果您扩展到数百或数千个节点，NFS 可能无法扩展到那么高，但 autofs 等工具可以帮助您实现这一点，并且 nfs 可以满足您的需求。我假设您正在设置此系统以运行某种并行作业（MPI、hadoop 等）。我提到这一点是因为您可能希望 6 个用户以有效的方式共享此并行资源。我建议对作业使用排队系统，以便单个计算节点不会同时由多个用户共享（并且单个作业可以跨越许多/所有计算节点）。

SSD 可能不错，但我认为它们完全违背了您拥有廉价并行计算资源的目标。只要您有足够的 RAM 来保存小图像并运行作业，NFS 就可以很好地将应用程序代码传递给它们。如果您无法将作业放入内存中，那么您将面临完全不同的境地。在这种情况下，请考虑需要多少个计算节点才能将作业放入内存中（毕竟这是并行作业，希望它能够扩展到这么远）。无论如何，RAM 都比 SSD 快，因此，在昂贵的 SSD 上多花的钱通常最好花在具有更多 RAM 的更多计算节点上。

Answer 1

我已经设置了多个这样的系统。还有一个启动盘/USB 可以访问 DHCP 和 TFTP 站点，将映像加载到您想要临时添加到集群的任何随机系统中，这也很方便。您还可以设置工作站，使其每晚自动重新启动到集群（以获得一些非高峰处理能力），并在白天重新启动到任何其他操作系统。顺便说一句，如果您手动执行此操作，有很多工具包可以提供帮助。

回答您的问题，在这样的系统上进行编译的一般方法是使用所有磁盘在前端进行编译，并将主目录 NFS 从那里安装到计算节点。如果将其放在 tmpfs 上，则每次重新编译时都必须重建一个节点。如果您扩展到数百或数千个节点，NFS 可能无法扩展到那么高，但 autofs 等工具可以帮助您实现这一点，并且 nfs 可以满足您的需求。我假设您正在设置此系统以运行某种并行作业（MPI、hadoop 等）。我提到这一点是因为您可能希望 6 个用户以有效的方式共享此并行资源。我建议对作业使用排队系统，以便单个计算节点不会同时由多个用户共享（并且单个作业可以跨越许多/所有计算节点）。

SSD 可能不错，但我认为它们完全违背了您拥有廉价并行计算资源的目标。只要您有足够的 RAM 来保存小图像并运行作业，NFS 就可以很好地将应用程序代码传递给它们。如果您无法将作业放入内存中，那么您将面临完全不同的境地。在这种情况下，请考虑需要多少个计算节点才能将作业放入内存中（毕竟这是并行作业，希望它能够扩展到这么远）。无论如何，RAM 都比 SSD 快，因此，在昂贵的 SSD 上多花的钱通常最好花在具有更多 RAM 的更多计算节点上。

使用（可能）无盘从属节点设置低成本开发集群

答案1

相关内容