针对 mcelog“内存地址奇偶校验错误”/MEMORY CONTROLLER AC_CHANNEL0_ERR 消息,我应该首先检查/替换什么

针对 mcelog“内存地址奇偶校验错误”/MEMORY CONTROLLER AC_CHANNEL0_ERR 消息,我应该首先检查/替换什么

我有一个服务器,每隔几天就会出现内核崩溃。

mcelog 告诉我:

Hardware event. This is not a software error.
MCE 0
CPU 6 BANK 8 
MISC 0 
TIME 1317928482 Thu Oct  6 15:14:42 2011
MCG status:
MCi status:
Error overflow
Uncorrected error
MCi_MISC register valid
Processor context corrupt
MCA: MEMORY CONTROLLER AC_CHANNEL0_ERR
Transaction: Address/Command error
Memory address parity error
Memory corrected error count (CORE_ERR_CNT): 21763
Memory transaction Tracker ID (RTId): 0
Memory DIMM ID of error: 0
Memory channel ID of error: 0
Memory ECC syndrome: 0
STATUS ea1540c0008000b0 MCGSTATUS 0
MCGCAP 1c09 APICID 20 SOCKETID 1 
CPUID Vendor Intel Family 6 Model 44

我要尝试更新 BIOS。之后,我不知道下一步该尝试什么。禁用第二个 CPU 可能暂时能让我继续运行。

答案1

如果这确实是 CPU 错误,那么它很可能以某种方式损坏了。

您可以先尝试英特尔微码更新。

答案2

这看起来像是主板内存控制器错误,所以我想换主板。搜索后MEMORY CONTROLLER AC_CHANNEL0_ERR会显示以及其他各种类似的参考文献。

相关内容