随机冻结:需要 mcelog 方面的帮助

随机冻结:需要 mcelog 方面的帮助

我新买的电脑会随机死机。死机时,键盘或鼠标均无响应,因此 REISUB 或 ctrl+alt+f1(或 f2、f3.. 等)均无用。

我曾经尝试过

  • 不同的显卡驱动程序:(fedora/ubuntu/win)默认驱动程序,Nvidia 的最新驱动程序
  • 不同的操作系统:Ubuntu 14.04(带 UEFI 启动)、Fedora 23(尝试过有或无 UEFI 启动)、Windows 10
  • 更新内核
  • 更换内存条:尝试只使用一根内存条,并将其放在不同的插槽中
  • 将显卡放入其他 PCI 插槽
  • 从 ASRock 网站更新 BIOS
  • 禁用 Firefox/Chrome 插件/扩展。(起初我怀疑冻结是由浏览器引起的)

并且冻结仍在继续发生。

我还做了以下测试并且都没有报告错误:

  • MemTest86:运行了 16 个小时,通过了所有 4 项测试。结果是这里
  • Glmark2(查看显卡性能。分数:12688)
  • Windows 10 中的英特尔处理器诊断工具。结果是这里
  • 我还监测了温度,它保持在 60 摄氏度以下

配置:

  • 英特尔® 酷睿™ i7-5960X
  • 华擎 X99X Killer LGA 2011-v3 英特尔 X99 SATA 6Gb/s USB 3.0 ATX 英特尔主板
  • EVGA GeForce GTX 980
  • 三星 850 EVO 2.5 英寸 500GB 固态硬盘
  • G.SKILL Ripjaws 4 系列 32GB (4 x 8GB) 288 针 DDR4
  • CORSAIR CX 系列 CX600M 600W

我知道这种配置看起来像一台游戏电脑,但是我从来没有用它玩过游戏,也没有超频过。在这种令人沮丧的情况下,最有趣的发现是计算机在最意想不到的时刻冻结:当我仅使用文件资源管理器 + 终端时,它就会冻结。观看 YouTube 30 分钟后,它有时会冻结。但在运行诊断工具时它永远不会冻结。当我运行一些 python 家庭作业代码并且所有 16 个 cpu 核心都达到 100% 使用率时,它也没有冻结。

问题:

由于冻结是在整个操作系统中发生的,因此我确信我的某些硬件已损坏。以下是 mcelog 反复显示的错误。有人能从日志中判断出我的硬件的哪个部分损坏了吗?或者我如何才能更好地理解它?

谢谢!

    Jan 29 09:26:24 fedora23 mcelog[1004]: Hardware event. This is not a software error.
    Jan 29 09:26:24 fedora23 mcelog[1004]: MCE 0
    Jan 29 09:26:24 fedora23 mcelog[1004]: CPU 0 BANK 17
    Jan 29 09:26:24 fedora23 mcelog[1004]: MISC 8cf00031e0000086 ADDR 5f000000
    Jan 29 09:26:24 fedora23 mcelog[1004]: TIME 1454088380 Fri Jan 29 09:26:20 2016
    Jan 29 09:26:24 fedora23 mcelog[1004]: MCG status:
    Jan 29 09:26:24 fedora23 mcelog[1004]: MCi status:
    Jan 29 09:26:24 fedora23 mcelog[1004]: Error overflow
    Jan 29 09:26:24 fedora23 mcelog[1004]: Uncorrected error
    Jan 29 09:26:24 fedora23 mcelog[1004]: MCi_MISC register valid
    Jan 29 09:26:24 fedora23 mcelog[1004]: MCi_ADDR register valid
    Jan 29 09:26:24 fedora23 mcelog[1004]: Processor context corrupt
    Jan 29 09:26:24 fedora23 mcelog[1004]: MCA: Generic CACHE Level-2 Eviction Error
    Jan 29 09:26:24 fedora23 mcelog[1004]: STATUS ee2000000004017a MCGSTATUS 0
    Jan 29 09:26:24 fedora23 mcelog[1004]: MCGCAP c16 APICID 0 SOCKETID 0
    Jan 29 09:26:24 fedora23 mcelog[1004]: CPUID Vendor Intel Family 6 Model 63
    Jan 29 09:26:24 fedora23 mcelog[1004]: Hardware event. This is not a software error.
    Jan 29 09:26:24 fedora23 mcelog[1004]: MCE 1
    Jan 29 09:26:24 fedora23 mcelog[1004]: CPU 0 BANK 18
    Jan 29 09:26:24 fedora23 mcelog[1004]: MISC 1cf00031e0000086 ADDR 5f100040
    Jan 29 09:26:24 fedora23 mcelog[1004]: TIME 1454088380 Fri Jan 29 09:26:20 2016
    Jan 29 09:26:24 fedora23 mcelog[1004]: MCG status:
    Jan 29 09:26:24 fedora23 mcelog[1004]: MCi status:
    Jan 29 09:26:24 fedora23 mcelog[1004]: Error overflow
    Jan 29 09:26:24 fedora23 mcelog[1004]: Uncorrected error
    Jan 29 09:26:24 fedora23 mcelog[1004]: MCi_MISC register valid
    Jan 29 09:26:24 fedora23 mcelog[1004]: MCi_ADDR register valid
    Jan 29 09:26:24 fedora23 mcelog[1004]: Processor context corrupt
    Jan 29 09:26:24 fedora23 mcelog[1004]: MCA: Generic CACHE Level-2 Eviction Error
    Jan 29 09:26:24 fedora23 mcelog[1004]: STATUS ee2000000004017a MCGSTATUS 0
    Jan 29 09:26:24 fedora23 mcelog[1004]: MCGCAP c16 APICID 0 SOCKETID 0
    Jan 29 09:26:24 fedora23 mcelog[1004]: CPUID Vendor Intel Family 6 Model 63

答案1

就我的情况来说,冻结问题有两种解决方案。

1.禁用省电功能: 我在 BIOS 中禁用了 CPU C 状态支持,在 Ubuntu 中也是如此,如下所示这张纸条。然后我使用电脑一天,没有再发生死机。(在所有操作系统中,它每天都会死机几次。)

2.更换主板:方案一好像可行,但我还是想保持省电功能,所以还是换了主板(从 Asrock X99X 换成 Asus X99a),电脑一直运行正常。

相关内容