因此,有一台 HP Integrity RX6600 服务器,根本无法开机。当用户打开机箱电源时,它会在 POST 过程中挂起,无法进入 EFI 并启动操作系统。
在查看了我将在这里分享的日志(MP 日志)后,我们的第一个猜测是处理器载板或其 CPU 模块出现故障:
Log Entry 64: 09 Aug 2017 19:19:48
Alert Level 7: Fatal
Keyword: BOOT_NOT_DETECTED
No events were received from system firmware
Logged by: Baseboard Management Controller;
Sensor: Processor
Data1: FRB2/Hang in POST failure
0x20598B6054020430 FFFF036F00070300
Log Entry 107: 09 Aug 2017 20:34:16
Alert Level 7: Fatal
Keyword: MISSING_FRU_DEVICE
Missing FRU device - Processor 0
Logged by: Baseboard Management Controller;
Sensor: Entity Presence - Missing Device
0x20598B71C8020700 FF20807115250300
基本上,CPU 板上安装了 2 个 CPU 模块。因此,我们为 CPU 模块和 CPU 板申请了二手材料。然而,在服务器上安装新部件后,我们几乎面临同样的问题,这意味着服务器仍然无法检测到处理器 0,因此 POST 过程无法完成。我们对新安装的部件进行了几个测试用例:
1-从 Slot0 中移除 CPU 模块并打开电源:它将失败,我们会收到相同的警报,此外当我们查询处理器状态时:
Slot0: Installed and Not configured
Slot1: Installed and configured
我发现这很不正常,因为 Slot0 上没有 CPU
2- 我们将 Slot1 上的工作 CPU 交换到 Slot0:它会失败,我们会收到相同的警报,此外当我们查询处理器状态时:
Slot0: Installed and Not configured
Slot1: Not installed
有人遇到过这样的问题吗?我还能检查什么来进行故障排除?根据测试用例结果,我们是否可以得出结论,也许新购买的 CPU 板也有故障?
答案1
嗯,显然 CPU 板有故障。我们已经更换了另一个,现在一切都好了。:)