dmesg 日志中的 PCIe 错误

dmesg 日志中的 PCIe 错误

我今天检查了 dmesg 日志,发现了以下内容:

[108957.958768] pcieport 0000:00:03.0: AER: Multiple Corrected error received: id=0018 [108957.958797] pcieport 0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, id=0018(Receiver ID)
[108957.958802] pcieport 0000:00:03.0:   device [8086:2f08] error status/mask=00000040/00002000
[108957.958805] pcieport 0000:00:03.0:    [ 6] Bad TLP               
[108957.958808] pcieport 0000:00:03.0:   Error of this Agent(0018) is reported first
[108957.958813] pcieport 0000:03:00.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, id=0300(Transmitter ID)
[108957.958816] pcieport 0000:03:00.0:   device [10b5:8747] error status/mask=00001000/0000e000
[108957.958819] pcieport 0000:03:00.0:    [12] Replay Timer Timeout  
[108972.972364] pcieport 0000:00:03.0: AER: Multiple Corrected error received: id=0018 [108972.972393] pcieport 0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, id=0018(Receiver ID)
[108972.972398] pcieport 0000:00:03.0:   device [8086:2f08] error status/mask=00000040/00002000
[108972.972402] pcieport 0000:00:03.0:    [ 6] Bad TLP               
[109030.841552] pcieport 0000:00:03.0: AER: Multiple Corrected error received: id=0018 [109030.841581] pcieport 0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, id=0018(Receiver ID)
[109030.841587] pcieport 0000:00:03.0:   device [8086:2f08] error status/mask=00000040/00002000
[109030.841591] pcieport 0000:00:03.0:    [ 6] Bad TLP      

很奇怪,我认为这是由于一些第三方驱动程序?(可能是 nvidia?我目前正在使用 3x nvidia Titan X 和 1x Tesla K40c)。

答案1

已解决的结论:所以只需要使用 dmesg 命令来追踪哪个设备,然后更换键盘硬件,同时更改我插入的 USB 插头是硬件调试解决方案,到目前为止!!

问题:机器随机冻结 - 摘要 SOLN:键盘有缺陷,已更换

-- 首先重新启动,以下是下一步的调试步骤

启动时警告:USB 功率过大,将在 15 秒内重新启动,从未见过消息 ^Above,与下面调试的硬件故障/电路短路问题一致!

通过以下方式查找错误

消息 |尾部-n30

**DPC 遏制事件

[ 6] 坏 TLP**

dmesg | grep -i “坏 TLP”

消息 | grep -i“[6]”

因此我将 GAMER 键盘(在端口 [ 6] 上)换成了 >> SINO WEALTH - usb 5-1:使用 xhci_hcd 的新低速 USB 设备编号 3 << 还更改了哪个 USB 插头查看新设备 PNP 注册 >>

消息 |尾部-n30

[ 2020 939537] usb 5-1:使用 xhci_hcd 的新低速 USB 设备编号 3 [ 2021 124622] usb 5-1:发现新 USB 设备,idVendor=258a,idProduct=0001 [ 2021 124624] usb 5-1:新 USB 设备字符串:Mfr=1,Product=2,SerialNumber=0 [ 2021 124626] usb 5-1:产品:USB KEYBOARD [ 2021 124627] usb 5-1:制造商:SINO WEALTH

获取并记录最新最后一条“DPC 遏制事件”消息的时间戳的简单方法

dmesg | grep -i “DPC 遏制事件”

[ 3451 609137] DPC 遏制事件

已确认解决方案如下

dmesg | grep -i “坏 TLP”

^^ 仅显示来自旧的有缺陷的键盘硬件的旧时间戳“坏 TLP”消息,即比上面的“[ 3451 ”更新的消息

消息 | grep -i 错误

^^ 仅显示来自旧的有缺陷的键盘硬件(即比“[ 3451 ”更新的)的旧时间戳“错误”消息 -AND-

dmesg | grep -i 看门狗

[ 0 162943] NMI 看门狗:已启用,永久消耗一个 hw-PMU 计数器 ^^ 仅一 (1) 个“看门狗”消息,即 AOK

-和-

dmesg | grep -i IOMMU

[ 0 953589] AMD-Vi:支持 IOMMU 性能计数器 [ 0 953709] AMD-Vi:支持 IOMMU 性能计数器 [ 0 955110] iommu:将设备 0000:00:01 0 添加到组 0 [ 0 955773] iommu:将设备 0000:00:01 1 添加到组 1 ^^“IOMMU”消息仅仅是根据消息上的时间戳在重启后立即显示的正确设置消息,这是 AOK

已解决的结论:所以只需要使用 dmesg 命令来追踪哪个设备,然后更换键盘硬件,同时更改我插入的 USB 插头是硬件调试解决方案,到目前为止!!

间歇性的硬件故障和冻结让我抓狂!

所以,

高血压

相关内容