如何检查硬件故障?

如何检查硬件故障?

最近我看到一些令人担忧的消息dmesg

具体来说是一堆:

[   19.367114] pcieport 0000:00:1c.5: PCIe Bus Error: severity=Corrected, type=Physical Layer, (Receiver ID)
[   19.367148] pcieport 0000:00:1c.5:   device [8086:9d15] error status/mask=00000081/00002000
[   19.367172] pcieport 0000:00:1c.5:    [ 0] Receiver Error         (First)
[   19.367192] pcieport 0000:00:1c.5:    [ 7] Bad DLLP    

和:

[   20.121489] ath10k_pci 0000:03:00.0: Unknown eventid: 118809
[   20.124485] ath10k_pci 0000:03:00.0: Unknown eventid: 90118

或者:

[   19.367213] pcieport 0000:00:1c.5: AER: Multiple Corrected error received: 0000:00:1c.5
[   19.367218] pcieport 0000:00:1c.5: can't find device of ID00e5

而最令人担忧的是:

Nov 06 19:03:16 3c86-notebook kernel: ath10k_pci 0000:03:00.0: firmware crashed! (guid a62c787e-4709-4d94-a1a7-4e9357c2555a)
Nov 06 19:03:16 3c86-notebook kernel: ath10k_pci 0000:03:00.0: failed to get memcpy hi address for firmware address 4: -16
Nov 06 19:03:16 3c86-notebook kernel: ath10k_pci 0000:03:00.0: failed to read firmware dump area: -16

(这种情况大约在启动时发生 50%)

所有这些都在相当短的时间(~2周)内开始出现,并且由于所有这些都可能是由硬件故障引起的,所以我最担心的是,是否有一种软件方法可以测试全部或大部分硬件?

(除了固件崩溃导致wifi停止工作外,我没有看到之前的错误有任何影响)

答案1

确认其硬件的最实用方法是启动已知良好的软件。例如,旧内核。旧固件也不错 - 一张你知道可以用的 Live CD/DVD 就更好了。

另外,检查你的日志——你确定它是在两周前才开始的吗?或者你直到那时才开始注意到它?

另外,至少如果这是一台台式电脑(相对容易打开和查看),请花点时间对硬件进行目视检查:所有风扇都在旋转吗?是否缺少任何散热器(散热器是否没有灰尘/绒毛)?电容有鼓包吗?由于存在大量 PCIe 错误,如果您对硬件感到满意,也可以重新安装所有 PCIe 卡。

[证明硬件故障存在的实际测试设备的成本可能比仅仅更换计算机要高得多。]

答案2

第二组和第四组日志消息来自特定硬件的 Atheros 无线驱动程序。它们可能是由硬件问题引起的,但也可能是由固件问题引起的。我以前没有处理过这个特定驱动程序的东西,所以我不能提供太多帮助。

第一组和第三组均直接来自 PCI-e 子系统。两者都在谈论纠正错误。我以前处理过这些类型的错误,根据经验我可以说它们几乎总是表明某种硬件问题(尽管它可能不是坏硬件)。当我遇到此类错误时,我使用的标准程序是:

  • 仔细检查散热器是否缺失,所有风扇是否正常运行,并且没有灰尘堆积。
  • 为了每个附加卡(不仅仅是显示问题的卡),取出卡并执行以下操作(如果卡在任何时候出现故障,请更换卡):
    • 检查卡边缘的触点是否有腐蚀或损坏的迹象。
    • 检查所有电解电容器是否有泄漏迹象。
    • 检查所有塑料外壳组件是否有熔化迹象。
    • 检查整个板是否有烧伤痕迹、异常变色或其他损坏。
    • 验证主板没有异味,最好是在通电后不久。奇怪的气味通常表明电容器泄漏或组件过热,即使没有明显的迹象表明此类问题,通常也会出现这种情况。
    • 检查主板上拆下卡的插槽,寻找弯曲触点、腐蚀或熔化的证据(对此可以使用好的放大镜)。
  • 仔细检查主板本身,就像检查卡一样。如果检查不合格,则应更换。
  • 验证电源是否具有足够高的系统额定值,并且它实际上提供了正确的电压。您只需使用简单的直流万用表即可快速检查空载电源是否具有正确的电压。检查 PSU 加载时导轨是否不会下垂有点棘手,但很多好的主板都会内置电压监控功能,您可以从固件设置菜单中进行检查。
  • 如果您可以使用热像仪(真实的热像仪,而不是模拟热像仪的花哨的智能手机应用程序),请在系统运行时检查系统内部。任何一个点的温度都不应高于 85 摄氏度(这是大多数消费电子产品的标准温度上限)。

从好的方面来说,您可以合理地确定问题是特定于 PCI Express 子系统(因此要么是卡坏了,要么是主板坏了)、电源(尽管这不太可能,如果它是您的电源的话) ,您可能会看到其他症状),或主板上的固件。

答案3

尝试诊断问题的一些事情。加载不同的操作系统并查看是否弹出相同的错误。(软件问题)尝试在没有某些 PCI 卡的情况下启动旧操作系统。(硬件)尝试回滚 BIOS 并查看错误是否消失。(固件)其中之一这些将消除错误,然后您就会知道机器的哪个部分出现了问题。保留错误列表并查看哪些错误消失或保留不同的更改可以帮助您诊断是否存在多个问题或只有一个问题。 大约 50% 的时间在启动时会发生这种情况 这让我觉得这可能是一个硬件问题。尝试打开盒子并检查是否有松动的卡/电缆。清理灰尘或在凉爽的环境中运行您的设置都会对您的体验产生积极影响。祝你好运!

相关内容