当我不知道从哪里开始时,我该如何排除故障?

当我不知道从哪里开始时,我该如何排除故障?

我在寻找有关如何开始进行故障排除的提示、技巧和答案:

  1. 问题时有时无
  2. 问题可能出在任何地方 - 操作系统、免费源软件、我自己开发的软件、购买的软件、键盘上的碎屑、我当前正在运行的软件的特定组合、麦克斯韦妖、实际运行机器的小蓝人已经罢工了;等等。
  3. 我仅对可能导致问题原因的几个领域拥有专业知识。

下面详细说明了我所遇到的具体问题,但我并不是在寻求当前问题的答案,而是在寻求从哪里以及如何开始解决这些问题。

我的新机器目前遇到了问题。有几次机器死机了;不接受按键、鼠标点击或除电源开/关之外的任何操作。我总是只是浏览网页;我运行了一些(<= 6 个其他应用程序)。这些应用程序都不是主流;并且代表了商业程序和开源程序的混合,通常是从某种 Unix 迁移而来的。

我的机器是一台 Windows 7 I7 四核笔记本电脑。

编辑:

尽管我说过实际的问题描述只是一个例子,但有些评论集中在解决这个问题上。不幸的是,由于这只是一个例子,给出的信息是正确的,但不完整。为了避免人们浪费时间尝试远程解决实际问题,我提供了一些有关我的设置的其他信息。正如我最初所说,我不是在寻求这个特定问题的答案。

我的机器是一台高性能笔记本电脑;是我的主要机器;用于开发和技术写作、通信(电子邮件、网络、FTP 等)以及照片编辑和索引。每月至少运行一次一套严格而广泛的硬件测试程序,包括 CPU 测试、多个内存测试和对所有其他组件的测试。每月至少运行一次完整的病毒扫描、完整的间谍软件扫描、磁盘清理和磁盘碎片整理。

磁盘包含大约 3*10^6 个文件;磁盘使用量为 300 Gb,剩余 150 Gb 可用。内存为 8 Gb。虽然当我运行全套主要开发工具时,机器会稍微变热,但我只在非常轻度使用机器时遇到问题 - 网页浏览、Textpad、Graphviz、Firebird 数据库以及轻量级数据库浏览器(Flame Robin)。在这种情况下,即使风扇也不会稍微变热。在遇到问题期间,我没有对软件、操作系统或硬件进行任何更改。发生了许多自动更新 - 主要是 Microsoft、Adobe 和 Lenovo,但不仅限于此。

我希望这个背景能够说明我提出这个问题的原因。我现在将开始调查答案中提到的各种日志,作为缩小调查范围的第一步。我将在调查中尝试练习迄今为止收到的答案中提到的特征之一——耐心。

答案1

得到更好的主意。

如果没有足够的实地信息,你是无法赢得战斗的。

  1. 描述您的问题的详细信息,以便您对它有一个很好的了解,谁知道它只会发生一次。

  2. 追溯及时了解之前发生的情况以及与问题相关的情况,包括您和您的计算机。

  3. 想想可能的原因因为有时它可能不是那么明显。

  4. 获取更多信息当你不知道发生了什么事情时,这可能包括活动, 到SysInternals 工具, 到性能分析, 到调试, 到您专业领域内的任何其他工具

  5. 测试你的假设确保你的想法不会过滤掉原因。

分而治之。

因为这就是军事打败对手即使寡不敌众。

消除可能的原因,否则您将无法跟踪问题。这样,您将越来越接近问题的根本原因,这可以让您更轻松地解决问题。

例如,对于硬件,断开并移除任何你不需要的组件来解决问题。这样,你就可以断开导致问题的组件。然后再次插入一半的组件,检查它是否再次发生,并重复拆分,直到找到坏的组件……

如果可以的话,在另一台计算机上进行测试也有助于解决问题。

例如,使用软件、重新启动进入安全模式、禁用启动项也有帮助。这也适用于启用/禁用设置、尝试默认配置等...

让我们测试一下。

我的新机器目前遇到了问题。有几次机器死机了;不接受按键、鼠标点击或除电源开/关之外的任何操作。我总是只是浏览网页;我运行了一些(<= 6 个其他应用程序)。这些应用程序都不是主流;并且代表了商业程序和开源程序的混合,通常是从某种 Unix 迁移而来的。

  1. 那是一个适当的描述就其本身而言,不会只发生一次任何一个。

  2. 你知道问题出在哪里,
    但是没有想到你或你的计算机在问题发生之前做了什么

    我无法说出这一点,但您、您的事件日志和最近修改的文件/文件夹可以告诉您。

  3. 可能的原因是可能与 CPU 有关,因为它是处理事物的组件。

    更具体地说,这可能是一个过程、一个驱动程序或故障的硬件(也许是温度问题?)。

  4. 我知道是 CPU,但不知道是什么。事件没有显示这一点,Process Explorer 会挂起磷酸二酯酶

    因此,下一步,我让跟踪分析运行,并在挂起发生后关闭它。

    我查看了踪迹,我发现驱动程序 X 导致了问题

  5. 没有做出任何实际假设。CPU 假设由我们的分而治之方法处理...

因此,这就是我开始分而治之解决问题的地方,一旦解决我就停下来:

  1. 当前版本的驱动程序有问题?
    将驱动程序更新至最新版本。

  2. 最新版本的驱动程序有问题?
    获取新的跟踪。将驱动程序更新为与初始版本不同的旧版本。

  3. 设备有问题?注册表配置有问题?
    获取新的跟踪。如果可能,请重新安装和/或禁用该设备。

  4. 问题是随机的,是处理器发热吗?
    检查处理器温度,如有必要,更换风扇。

  5. 问题不在于处理器,还有其他硬件和软件影响吗?
    移除硬件并禁用软件运行,以确定第三方影响。

  6. 问题不在于可拆卸部件,应更换该部件。
    在最坏的情况下,如果一切都失败了,你就需要去更换。

获取新的痕迹并移除硬件可以为我们提供更多信息,因此我们知道下一步该在哪里查找。

答案2

好的日志和直觉——确实如此。

  • 从第一天开始,跟踪您对系统所做的一切:应用程序和操作系统更新、新安装、新的或删除的硬件或连接、“没有造成问题”的雷暴。
  • 当您第一次注意到此问题时:
    • 你之前都在干嘛?
    • 最近还发生了什么不寻常的事吗?
    • 最近你做了哪些不同的事情?
    • 从那时起,请时刻注意自己正在做的事情,以便下次发生这种情况时,您可以更好地处理刚刚发生的事情。
    • 快照系统日志。
  • 看看你是否能重现它。除非你能重现它,否则你找不到它。
  • 开始对系统进行分区:安全模式与实时运行、新帐户与常规帐户、与常规不同的键盘和鼠标(尤其是蓝牙与有线),它是否在启动或唤醒后的几分钟内发生,还是仅在运行一小时后发生(考虑热量)。

答案3

我通常从事件日志和程序可能自行创建的任何日志开始。程序有时会在程序文件夹中创建日志。

一旦确定了时间,就可以在日志中搜索事件。当然,Windows 日志可能会显示易于识别的停止错误。

检查所有驱动程序并确保它们是最新的。

可能需要大量的耐心。

答案4

除了已经给出的所有好建议之外,如果日志文件没有给你提供很多信息,对机器进行适当的内存测试通常是值得的——内存故障会导致各种奇怪的间歇性冻结和崩溃。内置内存测试更类似于内存计数,它极其开机测试很少会发现内存故障。

在 Google 上搜索 Windows Memory Diagnostic,然后将其刻录到 CD 中。它虽然比较老旧,但它是比较好的内存测试之一,而且是免费的。

相关内容