在新安装的 Ubuntu 14.04.4 服务器中,内核版本为4.2.0-27-generic
,syslog 文件中有以下条目。
MCE:0x10de:reserved kernel page still referenced by 1 users
MCE:0x10de:recovery action for reserved kernel page:Failed
MCE:0x10a1:already hardware poisoned
这些条目是什么意思?“硬件已中毒”是什么意思?如何解决?
答案1
处理器正在响应内存页上的机器检查异常 (MCE)。MCE 是硬件错误,可能是以下情况之一:
1)系统总线错误(处理器和主板之间的数据错误)。
2)内存错误:奇偶校验检测到内存错误。
3)处理器缓存错误。
就您而言,我怀疑发生了内存奇偶校验失败,并且内核尝试使用错误校正码(ECC)来尝试修复此问题,但是损坏的位太多,因此无法修复。
第一个内核消息通知您损坏的内存页面是内核本身使用的页面,仅由 1 个用户共享/使用。
第二条内核消息通知您无法恢复/修复页面错误。
最终的内核消息指的是硬件检测到内存错误,页面被标记为需要修复“又名中毒”,稍后在读取页面时发生 MCE 并报告页面已被标记为中毒的事实。这是一个懒惰的操作,因为有时页面可能会损坏,但随后会对其进行写入,因此永远不会被读取,因此无需修复它。
由于这是硬件错误,因此可能是由于物理问题导致的,也可能只是宇宙射线引起的随机位翻转。如果这种情况经常发生,请检查内存是否安装正确。