我在 NVMe SSD 上运行 fio 作业,然后对其进行热插拔。该平台支持热插拔,系统是 Centos 7.0。拔出几秒钟后,系统崩溃并显示以下打印信息:
================
[1026.468414] {1}[硬件错误]:来自 APEI 的硬件错误 通用硬件错误源:1
[ 1026.468422] pciehp 0000:5d:02.0:pcie04:卡位于插槽(6-1)上
[ 1026.468432] pciehp 0000:5d:02.0:pcie04:插槽(6-1):链路断开事件
[ 1026.468451] pciehp 0000:5d:02.0:pcie04:链路关闭事件在插槽(6-1)上排队:目前正在通电
[1026.468457] pciehp 0000:5d:02.0:pcie04:已在插槽(7-1)上启用
[ 1026.468705] {1}[硬件错误]:事件严重性:致命
[1026.468744] {1}[硬件错误]:错误 0,类型:致命
[1026.468782] {1}[硬件错误]:section_type:PCIe 错误
[1026.468825] {1}[硬件错误]:port_type:0,PCIe 端点
[1026.468867] {1}[硬件错误]:版本:3.0
[1026.468915] {1}[硬件错误]:命令:0x0102,状态:0x4010
[1026.468961] {1}[硬件错误]:device_id:0000:00:00.0
[1026.469901] {1}[硬件错误]:插槽:0
[1026.469032] {1}[硬件错误]:secondary_bus:0x00
[1026.469070] {1}[硬件错误]:vendor_id:0x1ded,device_id:0x3010
[1026.469117] {1}[硬件错误]:class_code:008001
[ 1026.469155] 内核恐慌 - 未同步:致命硬件错误!
================
系统崩溃的可能根本原因是“卡存在”和“链路断开”这对矛盾的事件对扰乱了系统逻辑。因此,让我感到困惑的是 pciehp 同时报告了“卡存在”和“链路断开”。根据我的经验,“卡存在”通常与“链路接通”一起出现,而“链路断开”通常与“卡不存在”一起出现。
有人能给我一些线索,告诉我这种奇怪的情况是如何发生的吗?或者 PCIe 寄存器中的哪个位触发了“卡存在”事件和“链接断开”事件?