排除神秘不稳定的机器故障

排除神秘不稳定的机器故障

我有一台配备 Core i7 CPU、12 GiB 内存、4 个硬盘和显卡/声卡(均为附加 PCI-E)的机器。这台机器有点不稳定,我想知道如何解决剩余的问题。

最初,这台机器有一块华硕 P6T SE 主板和一台 8800GT,使用 700 W 电源、一台 LG DVD 驱动器和 3 个硬盘。就在我组装它的时候,内存出问题了,所以它被送回原厂。声卡是 Creative X-Fi UAA。第一个问题是 8800GT 坏了,但买一张新卡就很容易解决了。然而,这台机器有时会出现 BSOD。通常不是在系统负载下,但在空闲时。然而,它在负载下也出现过一次 BSOD。怀疑是 RAM 的问题,我运行了 memcheck 一整夜,没有发现任何问题。大多数时间一切都运行正常。

几个月后(大概每个月都会出现一次 BSOD),硬盘坏了。典型的磁头损坏,更换硬盘并从备份中恢复了操作系统/数据。现在我将磁盘配置切换为单系统驱动器,然后将 2 个磁盘设置为 RAID0,将 1 个磁盘用于备份。

几个月后,系统开始更频繁地出现 BSOD(接近空闲时每天三次,即网页浏览、RDP)。有趣的是,这台机器有一个 WLAN USB 棒,当我同时开始许多下载时,它有时会出现 BSOD。一旦机器开始出现 BSOD,我假设主板可能有故障,因为磁盘驱动器没有报告任何问题,显卡只是坏了并被更换了,额外的内存检查没有显示任何错误。原始 BSOD 都有一些消息,而不仅仅是停止错误代码(例如,我得到了 0x00000116(0xfffffa800a546010、0xfffff8801020907c、0x0000000000000000、0x00000000000000d)或 0x0000003b(0x00000000c0000005、0xfffff8800138e4c7、0xfffff8800b96c550、0x0000000000000000)。)

我更换了主板,机器现在突然关机了。这让我得出结论,电源可能有故障,所以我用另一个电源测试。另一个电源的电缆太短,无法将其连接到 DVD 驱动器,因此被切断了。使用不同的电源 (500 W),一切工作正常。我更换了原来的 700 W 电源并将其放回原位,将其连接到 DVD 驱动器,机器又会关机。我取出 DVD 并在另一台机器上测试,确实 DVD 有故障。我取出 DVD,机器又可以稳定运行了。

几周后,在玩游戏时,机器出现 BSOD 并显示 Stop Error 1E,没有任何进一步的信息。重新启动后一切正常。同一天,我想运行备份,但备份失败,错误为 0x80070570(文件损坏)。我运行了 chkdsk,确实,在我的主系统驱动器上,一些索引 ($SSI?) 左右被破坏,9 个文件被删除,所有内容都备份了。为了检查驱动器,我同时运行了三个 HD Tune 实例,机器再次出现 BSOD 并显示 1E(0x0000001e (0x00000000000000000, 0x0000000000000000, 0x0000000000000000, 0x000000000000000))。希望其中一个驱动器出现故障,我整晚连续运行 HD Tune,没有出现任何错误。机器没有出现 BSOD,并且再次运行正常。sfcscan还表明没有系统文件损坏。

由于这台机器几乎所有东西都已更换(硬盘、显卡、内存、主板、电源)或移除 DVD 驱动器;您知道如何排除故障吗?最奇怪的是,它现在可以连续几个小时在极端负载下正常工作,但周末我还是遇到了两次故障(有趣的是,两次都是在负载下)。每个部分单独看起来都工作正常,但组合起来却不知何故出现了问题。我完全不知道从哪里排除故障,因为每次我尝试检查某样东西时,那个讨厌的东西总是正常工作。

更新:刚刚在浏览网站时又遇到了一次 BSOD (1E)。我看到了创建内存转储的屏幕,进度条上升到 100%,但重启后,Windows 并未意识到机器崩溃了。可靠性日志未显示崩溃。但是,查看 Minidump 文件夹时,我找出了周末的 minidump,调用堆栈中有一个 HIDPARSE。USB 键盘(或 USB 鼠标)会产生蓝屏吗?

更新2:我更换了所有硬盘电缆并重新安装了 Windows。重新安装工作正常,连续 6 小时安装应用程序。关闭时,我收到停止错误 24。我怀疑主硬盘不可靠(三星 HD103SJ),因为我看不出还有什么可能导致问题。但是 HDTune 和 chkdsk 报告驱动器正常。

答案1

发生这种情况时,我会尝试排除软件。可能是硬件/软件组合。

如果你启动 Live Linux CD 会发生什么?Knoppix、Ubuntu 还是其他什么?系统是否能够长时间运行 Linux 系统而不会出现故障。那么或许你的软件有问题。

或者,您可以尝试在故障安全模式下启动 Windows(它在 Windows7 中还存在吗?我自己是 Linux 用户)。

好的,我只想给出一些排除原因的建议。我发现不稳定的系统往往是软件/配置错误导致的,而不是实际的硬件问题。

祝你好运!

答案2

我觉得这听起来像是热问题,你对芯片进行了超频吗?你可能想使用类似http://www.techpowerup.com/realtemp/要了解它变得有多热,您可能只需要更好的散热器和冷却系统。

答案3

我自己的电脑和我以前修理过的其他电脑也遇到过类似的问题。在我遇到的与您的系统类似的所有情况下(许多奇怪的、看似不相关的问题),都是由于以下两个问题之一造成的:

电源故障

要么是 PSU 输出的电压波动,要么是电网提供的实际功率波动。如今我再也不买便宜的 PSU 了,因为我知道诊断这类问题有多难。PSU 的瓦数并不能保证它是好的,因为它仍然可能提供波动的功率(这通常是最重要的)。尝试运行某种可以显示计算机上主板电压的监控程序(例如 speedfan),并检查它们是否稳定并接近所需值。如果可能,请尝试使用 UPS,这样您就不会受到电网的任何电压波动。坏的电源也容易损坏计算机中的其他组件,这使得调试更加困难。

使用制造商不推荐的 RAM

有些主板对 RAM 的要求非常严格。请咨询主板制造商,他们通常会给出非常详细的建议,说明应该使用什么(品牌、尺寸、序列号)。我甚至在预装电脑上也遇到过这个问题,组装电脑的人显然没有检查这一点,因为电脑中的 RAM 被列为“不推荐”。我花了很长时间才弄清楚。出于某种原因,进行内存检查并不总是能发现这个问题。

答案4

结果是 RAM + HDD 有问题。原始 RAM 的规格为 1.65V(6 条),尽管 4-5 次内存测试可以正常运行,但一旦我切换到 1.5V RAM(3 条),BSOD 就会消失。

硬盘也坏了,但更换硬盘只是减少了不同的停止代码的数量。

相关内容