在我正在工作的集群中,有一个节点的 CPU 温度较高。
该节点有 2 个 Intel(R) Xeon(R) CPU E5-2680 v4 @ 2.40GHz。
lm-sensors 的传感器命令显示一个 CPU 的温度约为 70°C,另一个约为 90°C。负载为 100%。它实际上是超载的,但负载无法降低。温度与负载高度相关。当前频率高于最大频率。max : 2400000 cur: 5280000 所以我不认为存在节流。
温差是否是冷却问题的征兆?
这英特尔文档显示温度情况是86°C,据我理解这意味着90°C时CPU的寿命会减少。
这种温度持续了将近一周,我是否应该寻找解决方案(降低 CPU 速度)来降低 CPU 的温度?该节点将来可能会运行其他密集型 CPU 作业。
答案1
在这种温度下运行 CPU 符合规格,但很可能会降低组件的使用寿命。您绝对应该考虑水平和垂直扩展,以减少负载。如果在本地,您还可以检查是否有更高效的冷却选项。