系统按预期在重新启动、关闭和重新启动时停止

系统按预期在重新启动、关闭和重新启动时停止

最近从Centos 6.4Centos 6.5。系统是Dell T410 Tower.每当我重新启动时,系统都会通过 post 运行,传递 IPv4 设置,然后宣布:

PCIe Training Error: Slot 1

system halted

当我ctrl+alt+del从这里开始时 - 我收到了同样的错误(每次都很确定)。

Dell ESM 日志显示:视频后出现一般故障。

当我按下电源按钮,然后重新打开电源时,系统按预期启动。

插槽 1 有一个系统正在使用的网卡。 (在最初安装 Centos 6.4 后,板载 Broadcom 网卡给我带来了速度和延迟问题,尝试用驱动程序解决,但没有成功,所以我添加了另一个网卡(使用 Realtek),它工作正常,没有问题,直到 6.5更新)

我仍然是一个 Linux 菜鸟,我不会认为这与内核相关,因为我认为内核直到下一个屏幕才开始加载。从这一点来看,看来一定是kernel

我现在正在运行2.6.32-431.5.1.el6.x86_64,因为我遇到了同样的问题,加上2.6.32-431.11.2.el6.x86_64额外的 CIFS 安装问题,这些问题已随着降级而消失。

uname -r
2.6.32-431.5.1.el6.x86_64

rpm -qa kernel 
kernel-2.6.32-358.23.2.el6.x86_64 
kernel-2.6.32-431.5.1.el6.x86_64 
kernel-2.6.32-358.el6.x86_64 
kernel-2.6.32-431.11.2.el6.x86_64 
kernel-2.6.32-358.14.1.el6.x86_64

我正在考虑尝试进一步返回 6.4 内核,看看重新启动是否会产生相同的结果。我不确定尝试将内核恢复到以前的版本(6.5 -> 6.4)可能会出现哪些其他问题,以及是否有其他原因我不应该这样做。我认为BIOS(某处)可能有一个选项可以在暂停消息后继续...但如果我这样做,并且出现错误,似乎网卡可能无法正常工作。

该服务器充当网络上大多数桌面的代理服务器,因此我只有有限的时间可以关闭电源并测试理论。系统现在似乎运行良好,只要我不手动重新启动,似乎我们在当前状态下就可以了,但想知道到底发生了什么。

dmesg片段:

udev: starting version 147
EDAC MC: Ver: 2.1.0 Feb 12 2014
bnx2: Broadcom NetXtreme II Gigabit Ethernet Driver bnx2 v2.2.3 (June 27, 2012)
  alloc irq_desc for 36 on node -1
  alloc kstat_irqs on node -1
bnx2 0000:01:00.0: PCI INT A -> GSI 36 (level, low) -> IRQ 36
bnx2 0000:01:00.0: setting latency timer to 64
bnx2 0000:01:00.0: firmware: requesting bnx2/bnx2-mips-09-6.2.1b.fw
bnx2 0000:01:00.0: firmware: requesting bnx2/bnx2-rv2p-09-6.0.17.fw
bnx2 0000:01:00.0: eth0: Broadcom NetXtreme II BCM5716 1000Base-T (C0) PCI Express found at mem da000000, IRQ 36, node addr a4:ba:db:12:39:24
  alloc irq_desc for 48 on node -1
  alloc kstat_irqs on node -1
bnx2 0000:01:00.1: PCI INT B -> GSI 48 (level, low) -> IRQ 48
bnx2 0000:01:00.1: setting latency timer to 64
bnx2 0000:01:00.1: firmware: requesting bnx2/bnx2-mips-09-6.2.1b.fw
bnx2 0000:01:00.1: firmware: requesting bnx2/bnx2-rv2p-09-6.0.17.fw
bnx2 0000:01:00.1: eth1: Broadcom NetXtreme II BCM5716 1000Base-T (C0) PCI Express found at mem dc000000, IRQ 48, node addr a4:ba:db:12:39:25
r8169 Gigabit Ethernet driver 2.3LK-NAPI loaded
  alloc irq_desc for 41 on node -1
  alloc kstat_irqs on node -1
r8169 0000:02:00.0: PCI INT A -> GSI 41 (level, low) -> IRQ 41
r8169 0000:02:00.0: setting latency timer to 64
  alloc irq_desc for 62 on node -1
  alloc kstat_irqs on node -1
r8169 0000:02:00.0: irq 62 for MSI/MSI-X
r8169 0000:02:00.0: eth2: RTL8168c/8111c at 0xffffc90000c76000, 00:e0:4d:1a:12:76, XID 1c2000c0 IRQ 62
r8169 0000:02:00.0: eth2: jumbo features [frames: 6128 bytes, tx checksumming: ko]
ACPI Error: No handler for Region [IPMI] (ffff8801ad4ec420) [IPMI] (20090903/evregion-319)
ACPI Error: Region IPMI(7) has no handler (20090903/exfldio-295)
ACPI Error (psparse-0537): Method parse/execution failed [\_SB_.PMI0._GHL] (Node ffff8801ad4eb4c0), AE_NOT_EXIST
ACPI Error (psparse-0537): Method parse/execution failed [\_SB_.PMI0._PMC] (Node ffff8801ad4eb560), AE_NOT_EXIST
ACPI Exception: AE_NOT_EXIST, Evaluating _PMC (20090903/power_meter-759)

答案1

系统所在的插槽听起来有故障,或者网卡本身在重新启动后出现问题。一旦主板电源被切断并且您启动电源按钮重新启动,卡的状态就被清除,因此能够从此状态正常启动。

不管你信不信,我过去也见过类似的问题,硬件无法退出“热”状态,但可以通过冷启动。

无论如何,我希望尽快更换硬件。

编辑#1

纵观整个Dell PowerEdge T410 用户手册此部分显示了各种错误消息以及如何解决这些错误的建议。

摘自第 50 页

                    SS #1

根据此表,它似乎与我的建议一致。我会关闭系统电源并尝试重置第一个插槽中的网卡,看看错误/问题是否消失。如果没有,那么您的 NIC 可能出现故障,或者主板的插槽#1 出现故障。

相关内容