HP DL380e Gen8 NMI 错误

HP DL380e Gen8 NMI 错误

我有一台带有 P420 RAID 控制器的 HP DL380e Gen8,在我之前的工作中它每天 24 小时开机,持续了 7 个月,运行了一些虚拟机,没有任何问题。换工作之后,我关闭了家里的服务器大约 3 个月。今天,在添加了 10Gbe 网卡(HP NC523SFP)后,我打开了它,服务器启动正常,我登录了操作系统(Centos 7),一切看起来都很好。大约 45 分钟后,我听到服务器风扇以 100% 的速度旋转,然后恢复正常,我连接了一台显示器,出现死机红屏,并显示 NMI 错误。检查 ILO,错误指的是 PCI-E 插槽 1 提升卡 1,这是连接 P420 控制器的地方(10Gbe 在插槽 3 提升卡 1 上)。我以为问题是由 10Gbe 引起的,但移除它之后,服务器仍然出现死机红屏。我还尝试将 10Gbe 移到转接卡另一侧的 PCI-E 插槽上,但没有任何变化,我还尝试移除带有电池的智能缓存模块,并将 P420 移到插槽 3 上。我可以检查什么?我唯一没有尝试的是在不连接硬盘和/或不从 P420 上移除背板电缆的情况下启动。将 10Gbe 卡放在转接卡的同一侧可能会损坏 P420 控制器?当第一次使用 10Gbe 启动时,我记得有一条关于启动磁盘/rom 选项的消息,我以前从未见过,所以我完全忽略了它。

答案1

RAID 控制器确实经常出现故障,因此如果它突然死机,我不会感到太惊讶。

解决这些问题最简单的方法是从最低启动配置开始,通常可以在大多数供应商的服务手册中找到。这基本上是 1 个 CPU、1 条 RAM,没有其他任何附加组件。然后开始添加组件,直到再次出现类似的错误,这样你就可以找到故障组件。

还要记住,电缆是半主动组件,当故障组件是 PCI 转接卡或 SAS 电缆时,我见过服务技术人员更换主板和 RAID 控制器。

答案2

从金属托盘中取出系统板。从南桥芯片组上取下散热器。刮掉芯片和散热器上所有凝固的导热膏。在芯片上涂上一些质量不错的导热膏。更换散热器。将系统板放回金属托盘上并重新组装服务器。问题现在应该已经解决,您将能够在配置管理器中看到 B320i RAID。(这是我正在使用的适配器)。

这项技术在过去两块出现死机红屏信息的 DL380e Gen8 主板上都发挥了作用。

相关内容