分而治之

分而治之

解决方案:一直是 RAM 设置的问题 :-| 我从未想到,装有原装 RAM 的原装主板上的原装设置会相差如此之远,以至于会导致系统不稳定。我从未进行过任何超频,所以我从未仔细查看过这些设置。一旦我选择了与我的 RAM 匹配的 DOCP 配置文件,一切都变得清晰起来,甚至速度更快。感谢 Twisty Impersonator 提供的过程指南,感谢 magicandre1981 建议我检查设置。希望这可以为其他人节省 2 年的挫败感。

编辑:嗯,我认为原因已经清楚了。更换了所有硬件后,问题仍然没有解决,我决定回到硬件问题上。简而言之:如果我使用两根内存条,一切都很好。使用哪两根内存条并不重要。如果我把四根都放进去,我就会开始遇到问题。这似乎很明显是主板坏了。

症状:

过去几年里,我的机器一直不稳定,时断时续。通常表现为 BSOD 和各种停止代码。

  • 升级 RAM 暂时提高了稳定性。
  • 升级主板可以暂时提高稳定性。
  • 更换C:驱动器可以暂时提高稳定性。
  • 有时需要刷新或重新安装操作系统,并且通常可以在一段时间内提高稳定性。

我几乎更换了系统中的所有功能组件,除了 CPU 和蓝光驱动器。我没有排除 CPU 的原因,但是仍然有大量的软件“东西”也可能存在问题。

每次,几个月后问题就会再次出现。


最近,症状略有变化。我承认这可能是一个完全不相关的问题,但它似乎与我一直在努力解决的问题太相似了,不可能只是巧合。

几周后,我重启电脑进行更新,但电脑却无法运行POST。我花了一段时间(检查连接、MemOK!按钮、断开电源、TPU开/关、EPU开/关等),终于可以运行了POST,但操作系统却无法加载。我忘记了症状的具体表现,但我记得它只是静止不动并旋转。

重新安装了操作系统,大约一周后一切都很平静,直到应用程序开始崩溃。起初,似乎所有崩溃的应用程序都安装在同一块固态硬盘上。由于没有空间移动和测试,我升级到了新的三星硬盘。但应用程序仍然崩溃。

  • 刷新了最新的 BIOS 更新。没有变化。
    • 事实证明,刷新 BIOS 时必须重置 CMOS。潜在症状与我的症状非常相似。我重置了 CMOS。没有变化。
  • 通常情况下,高需求应用程序会崩溃(《羞辱 2》、《暗黑破坏神 III》、《ESO》等)。但崩溃发生在 CPU 和 GPU 温度为 35°C-45°C 之间 - 因此可能不是温度。
  • 它的 RAM 没有耗尽。
  • MemTest从来没有出现过任何问题。我已经运行了几十次了。
  • 除高温外,CPU 测试从未出现任何问题。
  • 除高温外,GPU 测试从未出现任何问题。
  • 我已重新安装了视频驱动程序几十次。
  • 我昨天观看时任务管理器崩溃了。
  • 尝试安装 Windows 应用商店应用。某些后台进程崩溃。不得不重试。运行良好。
  • 事件查看器刚刚有AppCrash事件

AppCrash各种应用程序都会产生事件。大小、位置、需求等各不相同。通常每天一次,甚至更少。但高资源应用程序在 30 分钟左右内崩溃的频率相当高。

我应该澄清一下,这些不是Windows is looking for a solutionAppHang 事件。应用程序消失了,就像我关闭了它一样,Windows 除了事件查看器中的 AppCrash 事件外,没有其他任何消息。较少见的是 BSOD。最近,我看到了IRQ not less than or equal,还有其他我不记得的……(我不再有任何内存转储了?这很奇怪……)。

系统规格:

  • 操作系统:Windows 10 Pro(免费升级期间从 Win7 升级)
  • 中央处理器:AMD Phenom II 1090(无超频)
  • 冷却:CoolerMaster 150mm CPU 风扇,多个机箱风扇
  • 主板:华硕 M4A99X EVO R2.0
  • 内存:芝奇 16GB(4x4) DDR3-1333
  • 图形处理器:MSI GTX 970(无超频)
  • 电源:海盗船 CX750M
  • 系统驱动器:三星 850 EVO 500GB
  • 其他驱动器:三星 850 EVO 500GB、其他常规驱动器、光驱
  • 音视频:Windows Defender,没有其他 AV

崩溃转储:

受此帖子启发:https://superuser.com/questions/1281659/possible-to-determine-which-core-a-faulting-application-was-on-when-it-crashed

昨晚空闲时出现了新的 BSOD。详细信息如下WhoCrashed

Crash dump directory: C:\WINDOWS\Minidump
Crash dumps are enabled on your computer.

On Wed 1/3/2018 9:00:13 AM GMT your computer crashed
crash dump file: C:\WINDOWS\Minidump\010318-12546-01.dmp
This was probably caused by the following module: ntoskrnl.exe (nt+0x1640E0)
Bugcheck code: 0x1E (0xFFFFFFFFC0000005, 0xFFFFF8019CED183E, 0xFFFF968442FBEB68, 0xFFFF968442FBE3B0)
Error: KMODE_EXCEPTION_NOT_HANDLED
file path: C:\WINDOWS\system32\ntoskrnl.exe
product: Microsoft® Windows®
Operating System company: Microsoft Corporation
description: NT Kernel & System
Bug check description: This indicates that a kernel-mode program generated an exception
which the error handler did not catch. This appears to be a typical software driver bug
and is not likely to be caused by a hardware problem.  The crash took place in the Windows
kernel. Possibly this problem is caused by another driver that cannot be identified at this time. 

On Wed 1/3/2018 9:00:13 AM GMT your computer crashed
crash dump file: C:\WINDOWS\memory.dmp
This was probably caused by the following module: ntdll.sys (ntdll!ZwFlushBuffersFile+0x14)
Bugcheck code: 0x1E (0xFFFFFFFFC0000005, 0xFFFFF8019CED183E, 0xFFFF968442FBEB68, 0xFFFF968442FBE3B0)
Error: KMODE_EXCEPTION_NOT_HANDLED
Bug check description: This indicates that a kernel-mode program generated an exception
which the error handler did not catch. This appears to be a typical software driver bug
and is not likely to be caused by a hardware problem.  A third party driver was identified
as the probable root cause of this system error. It is suggested you look for an update for
the following driver: ntdll.sys.G
Google query: ntdll.sys KMODE_EXCEPTION_NOT_HANDLED

内存转储(完整和迷你)将在这里,因为它们可用:https://1drv.ms/f/s!AhSzRvnavkrXhPpNy8Qjhaj6LbbTwQ


chkdsk /f@magicandre1981根据我的内存转储结果推荐。C:是唯一启用页面文件的驱动器(由系统管理),因此我在该驱动器上运行了该程序。结果如下:

检查 C 上的文件系统:文件系统类型为 NTFS。

A disk check has been scheduled.
Windows will now check the disk.                         

Stage 1: Examining basic file system structure ...
  605184 file records processed.                                                         File verification completed.
Deleting orphan file record segment 699DD.
  10717 large file records processed.                                      0 bad file records processed.                                      
Stage 2: Examining file name linkage ...
  14846 reparse records processed.                                         704776 index entries processed.                                                        Index verification completed.
  0 unindexed files scanned.                                           0 unindexed files recovered to lost and found.                       14846 reparse records processed.                                       
Stage 3: Examining security descriptors ...
Cleaning up 1426 unused index entries from index $SII of file 0x9.
Cleaning up 1426 unused index entries from index $SDH of file 0x9.
Cleaning up 1426 unused security descriptors.
Security descriptor verification completed.
  49797 data files processed.                                            CHKDSK is verifying Usn Journal...
  37651904 USN bytes processed.                                                            Usn Journal verification completed.
CHKDSK discovered free space marked as allocated in the
master file table (MFT) bitmap.
CHKDSK discovered free space marked as allocated in the volume bitmap.

Windows has made corrections to the file system.
No further action is required.

 487284001 KB total disk space.
 209659436 KB in 259738 files.
    162276 KB in 49798 indexes.
         0 KB in bad sectors.
    729085 KB in use by the system.
     65536 KB occupied by the log file.
 276733204 KB available on disk.

      4096 bytes in each allocation unit.
 121821000 total allocation units on disk.
  69183301 allocation units available on disk.

Internal Info:
00 3c 09 00 f0 b8 04 00 7e 93 08 00 00 00 00 00  .<......~.......
98 05 00 00 66 34 00 00 00 00 00 00 00 00 00 00  ....f4..........

Windows has finished checking your disk.
Please wait while your computer restarts.

运气不好。即使 chkdsk 修复了这些问题,我仍然遇到相同的崩溃,尽管还没有出现新的 BSOD。


当我打开浏览器更新此问题时,又出现了一次 BSOD。上传完成后,内存转储即可使用。

但我最初更新的原因是,我发现了一大堆(准确地说是 51 个)看起来一模一样的事件。它们似乎每半小时发生一次,从我上班后(早上 7:30)开始,一直到晚上 8:30 左右。它们可能还在发生。它们看起来都像确切地这:

Fault bucket 0x1E_c0000005_fltmgr!FltpPreFsFilterOperation, type 0
Event Name: BlueScreen
Response: Not available
Cab Id: 0

Problem signature:
P1: 1e
P2: ffffffffc0000005
P3: fffff8019ced183e
P4: ffff968442fbeb68
P5: ffff968442fbe3b0
P6: 10_0_16299
P7: 0_0
P8: 256_1
P9: 
P10: 

Attached files:
\\?\C:\WINDOWS\Minidump\010318-12546-01.dmp
\\?\C:\WINDOWS\TEMP\WER-18531-0.sysdata.xml
\\?\C:\ProgramData\Microsoft\Windows\WER\Temp\WER5795.tmp.WERInternalMetadata.xml
\\?\C:\ProgramData\Microsoft\Windows\WER\Temp\WER57A5.tmp.csv
\\?\C:\ProgramData\Microsoft\Windows\WER\Temp\WER57B6.tmp.txt
\\?\C:\Windows\Temp\WER8F12.tmp.WERDataCollectionStatus.txt

These files may be available here:
C:\ProgramData\Microsoft\Windows\WER\ReportQueue\Kernel_1e_b49232881f44bde28acca17f0ad8bac3b4fbb67_00000000_cab_031c57c4

Analysis symbol: 
Rechecking for solution: 0
Report Id: 3c2abe43-d7d6-4561-9b0d-2adf1f40c745
Report Status: 388
Hashed bucket: 

我很难相信 CPU 会这么长时间出现这个问题,而电脑仍然能正常工作。我在探索软件/配置问题方面没有取得多大成功。

有任何想法吗?


差不多 3 周后……经过很多恶作剧,我终于买了一个新的 CPU(从 Phenom II 升级到 FX-8350)。更换很容易。然后探测常见问题区域,应用程序仍然崩溃。

我刚一“难过”地发帖,Windows 就告诉我“设备健康报告”的事情。它报告了驱动程序的问题。不幸的是,但并不令人意外的是,疑难解答程序无法检测到任何类型的问题。我从设备管理器中卸载了两个处于错误状态的“USB Root Hub”设备。

它与 Pool 押韵

这能提供什么额外的线索吗?我现在真的很困惑……


这是驾驶员信息列表……? https://docs.google.com/spreadsheets/d/1xAliAOt1s8rQ_ePX5OwTRVFPB3kFYgc3-1HRUznMpR0/edit?usp=sharing

答案1

分而治之

首先,您必须尝试确定这是硬件问题还是软件问题。有时两者都有,但最初最好假设不是。

根据我的经验,确定哪个阵营有问题的最有效方法是启动第二个完全不同的操作系统(请注意,不更改任何硬件),并尝试重现问题。最好使用不使用任何与可疑操作系统的代码相同。例如,如果您的可疑系统运行 Windows,则可以使用 Ubuntu 作为测试操作系统。Live CD 非常适合此目的。

对于间歇性发生的问题,这可能很有挑战性,但无论你如何解决,你需要知道:

  • 两个操作系统都受到影响,这意味着你遇到了硬件问题,或者
  • 只有您的可疑操作系统会受到影响,这意味着您可能遇到以下情况:

    • 软件问题,或
    • 硬件组件和特定软件(几乎总是第三方驱动程序)之间的不兼容。

如果你认为这是硬件

您已经测试并更换了很多组件。如果不良行为在您的测试操作系统中出现,您就有确凿的证据证明您尚未更换的组件存在问题。对于那些不适合进行全面测试的组件(例如主板),您可能首先想尝试更换其他成本较低的组件,但最终您可能别无选择,只能更换更昂贵的组件。

如果你认为它是软件

如果测试操作系统没有触发故障,您可以更加确信目标操作系统中的软件存在问题。但是,如果故障在历史上无法按需产生或仅间歇性发生,则仍有可能是硬件问题,只是测试操作系统没有触发。不要纠结于此;在测试您的暂定解决方案时记住这一点即可。

在找出错误代码时,您显然需要跟踪特定的错误消息,例如 Windows 的错误检查代码、事件日志或特定于应用程序的日志中记录的错误。我将跳过这些步骤,因为您已经用尽了这些线索,需要一种更通用的方法。

当不清楚哪个软件有问题时,你的首选武器是从等式中移除软件并让系统运行足够长的时间,让问题有机会发生(如果会发生的话)。您可以通过以下方式执行此操作:

  1. 卸载软件。
  2. 使用 Microsoft AutoRuns 等工具禁用它。
  3. 通过启动安全模式来禁用它。
  4. 创建第二个 Windows 安装没有所讨论的软件(如果您确实需要该软件用于日常使用并且希望能够轻松地在“测试”和“生产”模式之间切换,则很有用)。

在执行此操作时,我喜欢将系统软件分类如下,并进行相应的故障排除:

  1. Windows 自己的代码和收件箱驱动程序。最不可能出错。使用原始安装(没有任何第三方代码)。
  2. 第三方驱动程序。总是惹麻烦。通常以非随机方式崩溃,从而出现某种模式。使用不同的驱动程序版本或更换硬件组件进行测试。
  3. 第三方系统级软件(例如安全软件)。麻烦。这些软件很少需要系统正常运行,可以完全卸载以测试其影响。
  4. 用户应用程序。高度可变的崩溃行为。在现代版本的 Windows 中,这些很少会导致整个系统崩溃或锁定。故障仅在应用程序运行时发生,因此很容易跟踪故障并将其与当时正在运行的程序关联起来。注意具有始终开启的组件(如启动项或系统服务)的用户应用程序。

保留半详细的工作日志

最后的想法是:记录您遇到的问题和采取的故障排除步骤。面对像这样的困难而冗长的问题,很容易忘记细节。在工作时回顾这些内容可以帮助您排除原因或建立事实之间的联系,否则这些事实可能会在挣扎中被忽略。


轶事故事

我使用过的系统让我想起了你的情况。这是一台笔记本电脑(它限制了我的硬件交换选项),它会随机锁定。它会在开机后 10 秒内锁定,然后几天都不会锁定,然后开机几个小时后才会锁定。我更新了所有内容,测试并更换了所有我能更换的硬件组件,并重新安装了 Windows(至少一次,如果不是两次的话)。

最终是主板出了问题。更换主板后,笔记本电脑运行了很多年,没有出现任何故障。

相关内容