我在另一个办公室有一台台式机作为 ubuntu 服务器运行。最近它偶尔会自行关闭,我有点不确定如何诊断这个问题。系统日志如下所示:
May 20 15:42:35 hostname sensord: Chip: coretemp-isa-0000
May 20 15:42:35 hostname sensord: Adapter: ISA adapter
May 20 15:42:35 hostname sensord: Core 0: 67.0 C
May 20 15:42:35 hostname sensord: Core 1: 66.0 C
May 20 15:42:35 hostname sensord: Core 2: 61.0 C
May 20 15:42:35 hostname sensord: Core 3: 58.0 C
May 20 16:04:16 hostname kernel: [ 5243.049529] CPU0: Core temperature above threshold, cpu clock throttled (total events = 1)
May 20 16:04:16 hostname kernel: [ 5243.050011] CPU0: Core temperature/speed normal
May 20 16:05:48 hostname kernel: [ 5335.083540] CPU2: Core temperature above threshold, cpu clock throttled (total events = 1)
May 20 16:05:48 hostname kernel: [ 5335.084028] CPU2: Core temperature/speed normal
May 21 16:06:52 hostname kernel: [ 5399.816039] mce: [Hardware Error]: Machine check events logged
起初我怀疑是风扇坏了或者热源出了问题,于是激活了传感器。但温度似乎一直很稳定。
编辑:我已安装 mcelog,守护进程正在运行。我几乎在等待它再次发生,以查看 mcelog 是否有任何意义。
更新
mcelog 表明这是一个热问题,我有类似下面的日志,与 Gitlab 服务器备份 cron 作业的时间相匹配。
MCE 0
CPU 0 THERMAL EVENT TSC 16ec0aadec3a0
TIME 1401260314 Wed May 28 08:58:34 2014
Processor 0 heated above trip temperature. Throttling enabled.
Please check your system cooling. Performance will be impacted
STATUS 88020003 MCGSTATUS 0
MCGCAP 806 APICID 0 SOCKETID 0
CPUID Vendor Intel Family 6 Model 15
Hardware event. This is not a software error.
我今天还对系统进行了压力测试,stress -c 4 -i 1 -m 1 -t 120
CPU 温度很快就达到了 100 C。
coretemp-isa-0000
Adapter: ISA adapter
Core 0: +100.0°C (high = +84.0°C, crit = +100.0°C)
Core 1: +96.0°C (high = +84.0°C, crit = +100.0°C)
Core 2: +85.0°C (high = +84.0°C, crit = +100.0°C)
Core 3: +79.0°C (high = +84.0°C, crit = +100.0°C)
我怀疑散热器没有正确安装,我会在有时间的时候检查一下。
解决方案
我将检查 CPU 的导热膏和散热器,以快速解决问题。
我拿到了一台二手的 Dell PowerEdge R200 来替换这台服务器,我会尝试在下周安装它。非常感谢您的建议。
答案1
您可能可以诊断出这一点...日志表明存在热问题。CPU 膏、散热器、冷却等。
但这是专业版回答:
更换成本是多少?意外停机的影响是否足以让终端用户/企业用户用已知良好的服务器级硬件来替换设置?
对硬件进行正确诊断所需的停机时间是否会对用户产生负面影响?
如果是的话,请更换它...
如果没有,请排除故障...尝试测试 RAM,如前所述。此外,看看您是否可以通过强调效用或者诊断 Live CD。
答案2
系统告诉您它正在记录硬件错误,您查看过吗?
5 月 21 日 16:06:52 主机名内核:[5399.816039] mce:[硬件错误]:已记录机器检查事件