我有一台专用服务器,运行几天后就会失去响应。有时是 1 天,有时是 5 天,但这种情况总是发生,我既无法通过 ssh 访问服务器,也无法登录 supermicro 控制面板。
我必须从提供商的控制面板关闭并打开服务器才能再次访问该服务器。
该服务器没有运行任何重型程序,只是运行了 LAMP 设置。
我该如何诊断这个问题、找出问题所在并解决问题?
我在文件中发现的唯一突出的东西是messages
:
Aug 16 18:01:50 server1 kernel: sbridge: HANDLING MCE MEMORY ERROR
Aug 16 18:01:50 server1 kernel: CPU 0: Machine Check Exception: 0 Bank 7: 8c00004000010093
Aug 16 18:01:50 server1 kernel: TSC 0 ADDR 2804ab80 MISC 214042c286 PROCESSOR 0:306e4 TIME 1439766110 SOCKET 0 APIC 0
Aug 16 18:01:50 server1 kernel: EDAC MC0: CE row 6, channel 0, label "CPU_SrcID#0_Channel#3_DIMM#0": 1 Unknown error(s): memory read on FATAL area : cpu=0 Err=0001:0093 (ch=3), addr = 0x2804ab80 => socket=0, Channel=3(mask=8), rank=2
答案1
机器报告 RAM 错误,甚至会告诉您哪个模块受到影响。建议:更换该模块,看看问题是否消失。