HP ProLiant DL360 G7 在“电源和热校准”屏幕上挂起

HP ProLiant DL360 G7 在“电源和热校准”屏幕上挂起

我有一个新的HP ProLiant DL360 G7系统出现难以重现的问题。服务器随机挂起在正在进行功率和热校准...屏幕期间后期处理. 这通常在已安装的操作系统热启动/重启之后进行。

在此处输入图片描述

此时系统无限期停止运行。通过 ILO 3 电源控制发出重置或冷启动可使系统正常启动,不会发生任何意外。

当系统处于此状态时,ILO 3 接口完全可访问,所有系统健康指示器均正常(全部为绿色)。服务器位于气候受控的数据中心,电源连接到 PDU。环境温度为 64°F/17°C。在部署之前,系统已置于 24 小时组件测试循环中,没有出现任何故障。

该服务器的主要操作系统是 VMWare ESXi 5。我们最初尝试了 5.0 版,后来又尝试了 5.1 版。两者都是通过 PXE 启动和 kickstart 部署的。此外,我们还在测试裸机 Windows 和 Red Hat Linux 安装。

HP ProLiant 系统有一套全面的 BIOS 选项。除了静态高性能配置文件外,我们还尝试了默认设置。我已禁用启动启动画面并在该点处获得一个闪烁的光标,而不是上面的屏幕截图。我们还尝试了一些 VMWareBIOS 的“最佳实践”配置。我们已经看到了HP 的公告似乎也提到了类似的问题,但没有解决我们的具体问题。

由于怀疑是硬件问题,我让供应商当天就送来一个相同的系统。新服务器除了磁盘之外完全一样。我们将磁盘从旧服务器移到了新服务器上。我们在替换硬件上遇到了同样的随机启动问题。

我现在让两台服务器并行运行。热启动时随机出现此问题。冷启动似乎没有问题。我正在研究一些更深奥的 BIOS 设置,例如禁用 Turbo Boost 或完全禁用功率校准功能。我可以尝试这些,但它们应该不是必需的。

有什么想法吗?

- 编辑 -

系统详细信息:

  • DL360 G7 - 2 x X5670 六核 CPU
  • 96GB RAM(12 个 8GB 低压 DIMM)
  • 2 个 146GB 15k SAS 硬盘
  • 2 个 750W 冗余电源

所有固件均为最新 HP Service Pack for ProLiant DVD 版本。

打电话给 HP 并在网上搜索,我看到有人提到 ILO 3 交互不佳,但这种情况也发生在物理控制台上的服务器上。HP 还建议使用电源,但这是在一个数据中心机架中,可以成功为其他生产系统供电。

这是否可能是低压 DIMM 与 750W 电源之间相互作用不良造成的?此服务器应该是受支持的配置。

答案1

因此,在带来第三系统混入其中,并遇到同样的问题,我们开始质疑环境。我挖出了一份HP ProLiant 服务器故障排除指南并找到了如下所示的POST问题流程图。

在此处输入图片描述

仔细查看图表中的步骤后,我们发现所有服务器中唯一不变的是连接到数据中心应急车的 KVM 切换器。这是消费级 USB 型 KVM。根据流程图中突出显示的节点,您知道好的KVM吗?,我无法给出确切的答案。

因此,我们从 KVM 切换器上拔下服务器电源,并运行自动启动sleep 300; reboot序列rc.local。无论正常 DIMM、低压 DIMM、PSU 功率等如何,服务器都没有出现任何问题。

这一切都是与 USB KVM 切换器交互不良的结果。由于这是控制台,因此如果我们寻找故障,它确保我们会看到故障。自我实现...

相关内容