操作系统如何管理当前 HPC 集群中的电源?当前 HPC 集群中嵌入了哪些功能以节省电力
答案1
并非所有集群都一样,电源管理也与其他功能一样千差万别。有些集群使用非常基本的技术来节省一点电量,有些集群会关闭未使用的节点,或者采取其他措施来节省更多电量。
如果您对特定集群模型有疑问,我们可能会提供更多帮助,但像这样的开放式问题不会有好的答案。
答案2
好吧,如果你看一下典型的 HPC 集群,你会发现计算节点将是运行 Linux 的标准 x86 服务器。所以你可能会问,Linux 可以做些什么来节省 x86 硬件的功耗?好吧,有所有这些 ACPI C 状态和其他东西可用于根据不活动状态将处理器置于某种睡眠模式,或降低处理器的时钟频率等等。
然后,一些批处理调度程序具有允许关闭空闲节点的功能,然后当有工作要做时,调度程序可以启动这些节点(通过 IPMI、ILO 或其他远程管理系统)。
实际上,我们并没有真正研究过这些。为什么?因为我们的集群几乎一直以 90% 以上的负载运行。如果在某个时刻有很多空闲节点,一些聪明的人就会抓住机会,向队列提交一英里长的作业列表;问题解决了。:)