修复递归错误,但 x3850 x6 SLES12 上需要重新启动

修复递归错误,但 x3850 x6 SLES12 上需要重新启动

我们获得了一些新机器:x3850 x6。

所有 pxe 都能正常启动,除了一台机器,它会产生以下内核恐慌,看起来是一个令人兴奋的问题:

在此输入图像描述

在内核崩溃发生 30-40 秒后,我们甚至无法向上滚动。它挂得太糟糕了,我什至无法输入任何内容。

任何人都有任何线索,问题可能是什么?如果是硬件错误,那么要替换什么? CPU?母板?

  • BIOS 设置与工作设置完全相同
  • 固件/BIOS 版本与工作版本完全相同
  • 尝试过冷启动,同样的内核恐慌
  • 尝试使用内核参数启动:“acpi=off” - 它只是在大约 18 秒时发生了相同的内核恐慌,而不是通常在 30-40 秒时发生的恐慌。
  • 尝试过:“noapic nomodeset xforcevesa” - 30-40秒后出现恐慌。
  • 尝试过:“acpi=off noapic nomodeset xforcevesa” - 30-40秒后出现恐慌。
  • 尝试:“isolcpus = 0”启动参数,相同的内核恐慌,30-40秒后。
  • 尝试启动 slacko-5.6-PAE.iso - 它正常启动! 3.10.5 SMP PAE。但我们必须使用SLES。 PAE 内核仅看到 ~65 GB RAM(如果这是有用的信息)。
  • 尝试过:https://www.memtest86.com/downloads/memtest86-iso.zip运行一个简单的memtest,但是在没有内存错误的情况下运行59秒后,机器死机了。 -> 更新:Memtest86+ 来自:http://www.memtest.org/#downiso不冻结。

有一次我看到:“内核恐慌 - 不同步:看门狗在 cpu 18 上检测到硬锁定” - 机器中有 4 个 CPU,每个 CPU 有 18 个核心,所以不知道这是哪一个。

更新:使用“maxcpus=0”内核启动参数,它最终启动了,但仍在调查,因为仍然说:“启动作业正在运行以激活 LVM2 逻辑卷(Xmin xs /无限制)”-但也许CPU硬件问题?

答案1

emulex 卡驱动程序升级后,内核不再出现恐慌。

版本 11.0.270.24 至 11.4.1186.3

相关内容