解决随机重启问题:我可以排除我的 PSU 和 RAM 吗?

解决随机重启问题:我可以排除我的 PSU 和 RAM 吗?

我有一个使用了 2 个月的 Ubuntu 版本(在文章底部描述),它在开机后一小时内就开始自行重启。它很稳定,没有给我带来任何问题,直到大约一周前这些重启开始。我已经开始缩小可能的原因范围,但我在这里发帖是为了……

  • 验证我在故障排除时做出的假设
  • 最有希望的下一步行动建议

这篇文章分为重启描述和一系列基于我迄今为止进行的测试的问题。我试图做到详尽无遗,但如果我能提供更多有用的信息,请告诉我。

提前感谢您的帮助!

重启的本质

重启非常突然 - 没有关机屏幕、BSOD 或类似信息或其他通知。之前也从未出现任何挂起或冻结。系统突然黑屏,然后立即开始尝试自行重启。它有时会成功重启,有时会陷入大约 2 秒的尝试启动然后突然断电的循环。当发生这种情况时,我必须手动关闭电源才能成功启动。

当它恢复时(立即或在我干预后),它没有给出任何出错的迹象。我根据时间戳精确定位了切断和重启,但在内核日志或系统日志中没有看到任何线索。

它曾在多种情况下发生过,但总体主题似乎是工作量高于正常水平(但这可能是一个转移注意力的话题)。我第一次注意到它是在玩 Steam 游戏时,然后在远程并行运行科学 Python 程序时单独注意到它。自开始排除故障以来,它在运行图形压力测试(GpuTest)、处理器压力测试(mprime)和 MemTest86+ 试用期间发生过,并且在我的正常游戏和 SciPy 使用中继续发生。

这些结论/假设正确吗?

(从最不确定到最确定排序)

  • PSU 不是问题的原因因为尽管我的 BIOS“电源恢复”设置已设为“保持关闭”,系统仍会尝试重新启动。此外,这是一款高品质的全新 PSU,具有足够的功率来满足系统组件的需要。
  • 这是一个硬件,而非软件问题是因为 a) 日志中没有线索,并且 b) 它在 MemTest86+ 以及常规 Ubuntu 使用期间发生。
  • 这是可能 不是 RAM因为在每一个内存模块和主板内存通道的组合中都观察到了这个问题。如果是内存问题,我就有两个有缺陷的内存条了。此外,当系统在 MemTest86+ 期间失败时,在突然重启之前它没有显示任何错误或问题。
  • 这是极不可能由 CPU 引起,并且我已经更新了我的 BIOS 固件以解决已知的 Skylake 错误。
  • 温度不是问题。我监控了 CPU 温度,重启前温度正常。此外,在正常使用期间和重启前,整个系统摸上去仍然很凉。
  • CMOS 电池良好因为 BIOS 显示了准确的日期和时间。
  • 我的硬盘应该没问题SSD 和 WD Blue 都是新的,当我移除旧的 2.5 英寸 HDD 时问题仍然存在。
  • 我的显卡不是罪魁祸首因为无论系统中是否有显卡,都会出现问题。
  • 这是不是电源插座问题因为 a) 系统在同一个地方稳定运行了一个多月(没有新设备插入同一个电路)并且 b) 问题发生在我公寓周围的各种电路中。

下一步

如果以上是安全的假设和结论,我的下一步将是通过借用我朋友的工作 DDR4 内存并在我的系统中重现问题来排除内存模块,并且如果有必要,将我的 RAM 放入他的系统中并观察其运行情况。

  • 我是否应该尝试其他方法,或者在其他环境中尝试重现该问题?
  • 如果这些测试都指向主板,我需要做什么才能让技嘉更换主板?它仍在保修期内。

系统组件

当前一切都设置为 BIOS 的优化默认值。

  • 中央处理器:英特尔酷睿 i5-6600
  • 母板:技嘉 GA-Z170XP-SLI ATX LGA1151
  • 记忆:G.Skill Ripjaws V 系列 16GB (2 x 8GB) DDR4-2400
  • 贮存:1 个 SSD、1 个 WD Blue、1 个较旧的 2.5 英寸 HDD
  • 显卡: EVGA GeForce GTX 750 Ti 2GB SC
  • 电源:EVGA SuperNOVA G2 550W 80+ Gold(根据 PCPP,该系统的最高瓦数应该在 260W 左右。)
  • 操作系统:Ubuntu 15.10

答案1

两个可以尝试的想法:

  1. 我在一台老款技嘉电脑上见过这种情况。在 BIOS 中,将风扇速度控制的设置从自动改为传统。这样风扇就会一直高速运转。如果热敏电阻或其电路有问题,就会得到修复。

  2. 如果某处发生短路,也可能会发生这种情况。我会移除尽可能多的硬件,看看这种情况是否会再次发生。作为最后的手段,将整个电路板从机箱中取出,并在 RMA 之前,将其放在装有最少硬件的桌子上运行。

如果您仍然遇到问题,您应该将主板寄回。

答案2

问题听起来像是电源问题。不幸的是,你可能只消除了 PSU,但事实可能并非如此。听起来它就像你按下了重置按钮一样。所以它可能就像按钮或接线一样简单。然后它就到了 MB 上。任何组件中的任何间歇性短路都可能导致它。CPU、内存、CPU 或其他 MB 组件的相位电源。我将 bd 发回 GB,他们似乎并没有过多争论 RMAing。只要告诉他们你已经改变了其他一切。因为如果 MB 继续这样,他们可能会再给你发一个,这样就可以消除它了。

相关内容