诊断服务器崩溃,可能是 CPU 温度

诊断服务器崩溃,可能是 CPU 温度

我在另一个办公室有一台台式机作为 ubuntu 服务器运行。最近它偶尔会自行关闭,我有点不确定如何诊断这个问题。系统日志如下所示:

May 20 15:42:35 hostname sensord: Chip: coretemp-isa-0000
May 20 15:42:35 hostname sensord: Adapter: ISA adapter
May 20 15:42:35 hostname sensord:   Core 0: 67.0 C
May 20 15:42:35 hostname sensord:   Core 1: 66.0 C
May 20 15:42:35 hostname sensord:   Core 2: 61.0 C
May 20 15:42:35 hostname sensord:   Core 3: 58.0 C
May 20 16:04:16 hostname kernel: [ 5243.049529] CPU0: Core temperature above threshold, cpu clock throttled (total events = 1)
May 20 16:04:16 hostname kernel: [ 5243.050011] CPU0: Core temperature/speed normal
May 20 16:05:48 hostname kernel: [ 5335.083540] CPU2: Core temperature above threshold, cpu clock throttled (total events = 1)
May 20 16:05:48 hostname kernel: [ 5335.084028] CPU2: Core temperature/speed normal
May 21 16:06:52 hostname kernel: [ 5399.816039] mce: [Hardware Error]: Machine check events logged

起初我怀疑是风扇坏了或者热源出了问题,于是激活了传感器。但温度似乎一直很稳定。

编辑:我已安装 mcelog,守护进程正在运行。我几乎在等待它再次发生,以查看 mcelog 是否有任何意义。

更新

mcelog 表明这是一个热问题,我有类似下面的日志,与 Gitlab 服务器备份 cron 作业的时间相匹配。

MCE 0
CPU 0 THERMAL EVENT TSC 16ec0aadec3a0
TIME 1401260314 Wed May 28 08:58:34 2014
Processor 0 heated above trip temperature. Throttling enabled.
Please check your system cooling. Performance will be impacted
STATUS 88020003 MCGSTATUS 0
MCGCAP 806 APICID 0 SOCKETID 0
CPUID Vendor Intel Family 6 Model 15
Hardware event. This is not a software error.

我今天还对系统进行了压力测试,stress -c 4 -i 1 -m 1 -t 120CPU 温度很快就达到了 100 C。

coretemp-isa-0000
Adapter: ISA adapter
Core 0:      +100.0°C  (high = +84.0°C, crit = +100.0°C)
Core 1:       +96.0°C  (high = +84.0°C, crit = +100.0°C)
Core 2:       +85.0°C  (high = +84.0°C, crit = +100.0°C)
Core 3:       +79.0°C  (high = +84.0°C, crit = +100.0°C)

我怀疑散热器没有正确安装,我会在有时间的时候检查一下。

解决方案

我将检查 CPU 的导热膏和散热器,以快速解决问题。

我拿到了一台二手的 Dell PowerEdge R200 来替换这台服务器,我会尝试在下周安装它。非常感谢您的建议。

答案1

您可能可以诊断出这一点...日志表明存在热问题。CPU 膏、散热器、冷却等。

但这是专业版回答:
更换成本是多少?意外停机的影响是否足以让终端用户/企业用户用已知良好的服务器级硬件来替换设置?

对硬件进行正确诊断所需的停机时间是否会对用户产生负面影响?

如果是的话,请更换它...

如果没有,请排除故障...尝试测试 RAM,如前所述。此外,看看您是否可以通过强调效用或者诊断 Live CD

答案2

系统告诉您它正在记录硬件错误,您查看过吗?

5 月 21 日 16:06:52 主机名内核:[5399.816039] mce:[硬件错误]:已记录机器检查事件

参考:Ubuntu 上的 mcelog 手册页

相关内容