我们的空调在夜间出现故障。我们发现服务器机房的温度已达到约 110-115°F (43-46°C)。我们关闭了所有尚未关闭的电源,并修好了空调。
现在问题已经解决,我担心长时间暴露在高温下会造成损坏。我想对我们所有的机器进行一系列测试,以确保在我们重新使用它们之前机器没有损坏。我的计划如下:
- 运行 memtest86 检查是否有任何 DIMM 损坏(已经这样做了,基本上没有发现任何问题)
- 运行 Prime95 检查是否有任何 CPU 损坏(可能以意外中断或硬件故障的形式出现)
- 在所有磁盘上运行
smartctl -a
并badblocks
检查输出是否有任何异常
这个列表感觉有点单薄,而且我不确定这些是否都能正确地运行硬件以确保我们将来不会遇到任何由热量引起的问题。
这一系列测试足够吗?我还需要考虑其他什么吗?
答案1
46.5摄氏度。
不要从检查开始,而是阅读主服务器的文书工作。
您会发现,这很可能完全在其工作温度范围内。这不是开玩笑。硬件有多种用途,地球上有很多炎热的地方 - 您真的想在炎热的天气里告诉德克萨斯州的一个人,他需要空调吗?
哎呀,只是检查一下我得到的服务器:
https://supermicro.com/Aplus/system/1U/1123/AS-1123US-TR4.cfm
温度范围为 95 华氏度。并且 CPU 的温度受到限制 - 如果有的话,它们会关闭。
您最好检查磁盘的完整性,并确保备份没有问题 - CPU 不会如此容易地消耗和损坏。大约 15 年以来,每个人都安装了热节流电路。我遇到过几次 CPU 冷却器故障,导致 CPU 快速关闭主板。