机器检查异常-如何阅读和理解它?

机器检查异常-如何阅读和理解它?

我的电脑运行异常 - 有时会自动重启,有时又无法启动。当我使用“mcelog”命令时,我收到以下信息:

HARDWARE ERROR. This is *NOT* a software problem!
Please contact your hardware vendor
MCE 0
CPU 0 BANK 0 
MISC 61f80000500010e ADDR cf9 
TIME 1305836650 Thu May 19 22:24:10 2011
MCG status:
MCi status:
Uncorrected error
MCi_MISC register valid
MCi_ADDR register valid
Processor context corrupt
MCA: BUS Level-3 Observed-error-as-third-party Generic Memory-access     Request-did-not-timeout Error
Model:Response hard fail
STATUS ae00030010020c03 MCGSTATUS 0
MCGCAP c0204 APICID 0 SOCKETID 0 
CPUID Vendor Intel Family 15 Model 4

我该如何阅读和理解它?有人能给我提供一些文档吗?

答案1

我一直在研究 MCE 错误,因为我目前正在调整机器的超频。我没有遇到任何错误,因为我首先使用 MemTest86+ 捕获了所有错误的设置,但我知道我可能会遇到,所以在超频更改后的头几个月里,我必须定期检查它们。当你将硬件推到刚好超过其极限时,它们就会出现,这是你超频过度的迹象。

以下几行很重要

“硬件错误。”

和“MCA:总线 3 级观察到的错误为第三方通用内存访问请求未超时错误模型:响应硬失败”

其他几行表示处理器中的寄存器不会导致故障,以及确切的错误规范以及错误究竟影响了什么。除非您是内核开发人员或主板开发人员,否则您不需要这些信息。

看来您的错误来自内存。这就是通常所说的顽固故障,因为您的系统正在启动,只是出现错误。

以下是内存、内存控制器或总线问题的常见原因。(按修复问题的难易程度排序。_

  1. 超频问题。(RAM 时间太短,RAM 总线速度太高。)

  2. 电压问题(BIOS 中的 RAM 和/或 CPU 电压设置错误,太低或太高,或者主板设计用于不同电压的 RAM,例如,您将 1.65 伏 RAM 放入采用 1.5 伏 RAM 的主板中。)

  3. 过热问题(CPU RAM 控制器、CPU 缓存、主板和/或 RAM 过热。这可能与电压问题有关。)

  4. 电源不良(这是由大问题引起的。)

  5. 内存损坏(尝试使用 MemTest86+ 进行测试,包括可怕的位淡入测试。即使检测到也可能不是内存。)

    6 坏的 BIOS(警告,在内存有问题的情况下刷新 BIOS 可能会很危险。请查看制造商的网站,查看是否存在导致内存损坏的问题,在另一台计算机上下载并准备 BIOS 映像,然后在启动时使用 BIOS 刷新程序,以最大限度地减少正在使用的资源量,从而减少可能出错的情况。)

  6. 主板损坏和/或 CPU 损坏。(我认为这很明显。)

答案2

唯一重要的一行,

未更正的错误

您的内存或主板有问题。交换其中一个并重试。运行 Memtest86 以更快地查找错误是否仍然存在,并尝试以较低的时钟速度运行内存。

除非您要手工焊接替换芯片,否则其他事情都无关紧要。无论如何,我并不建议这样做。

答案3

英特尔(或 AMD)系统编程手册是获取 MCE 解码帮助的首选(请参阅“机器检查架构”一章)。不过,这些文档内容非常丰富。您很快就会陷入微架构修订差异、芯片组与 CPU 问题等的泥潭中。

相关内容