作为配置服务器的一部分,我们运行 HP 的 Insight Diagnostics 来测试硬件。这是一个手动过程。有没有办法自动运行 Insight Diagnostics?
hpdiags 软件带有选项“-rd:”“对所有可诊断设备进行诊断”。根据我的测试,这个软件没有多大用处(它只是从磁盘读取 SMART 信息)。有没有人用过这个软件,效果更好?
硬件:BladeCenter c7000,配备 HP ProLiant BL460c 刀片、DL360s。
操作系统:ESXi 和 Ubuntu。
答案1
因此,我将提出另一个问题:
为什么需要在配置之前在服务器上运行 HP Insight 硬件诊断?
在我上面的评论中,我指出在大型 HP ProLiant 环境中预先执行此操作几乎没有什么好处。我应该澄清一下我的想法...
按照频率降序排列,我们来看看您通常会遇到的问题类型:
存储阵列和磁盘:RAID 控制器将向操作系统、日志、SNMP、电子邮件、ILO 和点亮美丽的灯光表示健康。
内存:POST 过程将检测 RAM 状态,以及系统向操作系统、日志、SNMP、电子邮件、ILO 报告并点亮前面板上的 LED 指示灯系统洞察显示 (SID)。另外,我不喜欢RAM 老化过程因为这些系统的错误检测已经很强大了。
散热和风扇:服务器温度和风扇速度由ILO调节。这些系统上有 30 多个温度传感器,因此冷却系统非常高效。这仍然会向操作系统、日志、SNMP、电子邮件和 SID 报告。
电源:PSU 状态报告给操作系统、日志、SNMP、电子邮件和 SID,以及实际电源装置上的实际指示灯。
总体健康:除了内部健康和外部健康 LED 之外,SID 显示屏还可以轻松一目了然地评估这一点。这也会报告给服务器的日志、SNMP、电子邮件和 ILO。
我想不出在部署前会发现的任何在运行时或操作系统安装后不会/无法报告的情况。
在没有明显先前问题的系统上运行时,诊断循环通常不会发现任何东西。这主要是因为服务器需要 POST 并启动到实用程序或 Intelligent Provisioning 固件才能运行该实用程序。
换句话说,任何对服务器来说可能造成严重“SPOF”的项目都可能会阻止系统运行自我诊断。
最常见的故障项仍然相当可靠;磁盘应为 RAID 并且可热插拔。风扇和电源也是可热插拔的。您的 RAM 具有 ECC 阈值,并且大多数 ProLiant 平台都有在线备用选项。您无法通过运行诊断程序来导致这些组件发生故障。添加您正在使用的事实HP C7000 Blade 机箱,具有内部冗余,那么失败的概率就会很低。