监控 HP DL 服务器上的硬件故障

监控 HP DL 服务器上的硬件故障

除了 HP 提供的工具之外,还有其他工具可以从 RHEL5 监控这些服务器中的组件故障吗?

答案1

HP ASM 工具和 SNMP OID 是我们主要用于一般组件监控的工具....

或者您也可以使用智能工具监控磁盘驱动器,大多数传感器应该出现在lm_传感器

答案2

HP 的硬件挂钩本身是专有的,但它们确实通过多种“开放”方法(例如 SNMP/WMI/WBEM 等)公开其仪器。因此您不必使用 SIM/SMHP。

答案3

您应该安装 HP 的完整工具、hpasm/hprsm 软件包等。它们确实是我见过的最难安装的软件包。它们似乎是由不关心部署难易程度的人编写的。它们提供了一个您可以手动运行的 shell 脚本,首先使用它,直到您弄清楚如何破解该脚本、编写包装器、单独安装 RPM 或依靠供应商做出合理的行为。

您应该监控系统日志以查找这些工具的错误。

您应该解析 hpasmcli(显示服务器、显示 dimm)和 hpacucli(显示所有控制器,然后显示每个控制器插槽=X pd 所有控制器)输出以识别故障。如果您依赖系统日志报告,您将错过故障并遭遇令人尴尬的灾难。

您还应该解析 hplog 输出,并在检查后清除输出,将此输出存档到某处。将此视为对 hpasmcli/hpacucli 检查的冗余检查。

您应该使用 hponcfg 来确保 ILO 已配置,并连接到它以确保它确实有响应。

确保你可以升级固件,并定期升级。HP 发布了关键固件升级,例如,它可以将因轻微内存错误而导致的崩溃(没有识别出坏的 DIMM)转变为故障灯。HP 改变了我对固件升级的看法,因为固件升级并非绝对必要。(好吧,固件升级是绝对必要的,只是没有人告诉你)。

放弃 SNMP 的东西。您有很多工作要做,这只是额外的工作,不会为您提供所需的全部功能,因此您仍然需要做其他工作。

在报告/管理硬件问题方面,HP 服务器仍然是最好的 Intel 服务器。它们只是存在某些极其烦人的问题。也许如果每个客户至少抱怨一次,他们就会让部署变得更容易。这没有任何借口。

运行 RHEL5 和持续监控的 HP 管理工具以及偶尔的磁盘和内存压力测试的 DL3[68]0 G5 将是市场上最可靠的英特尔解决方案。只需尽职尽责,确保物有所值。HP 为您提供工具,只是没有让它们像应该的那样易于使用。

只使用 HP RAM。否则就不值得这么麻烦。当 DIMM 的故障灯亮起时,您不需要供应商互相指责。

定期检查数据中心的故障灯,并以此来纠正监控脚本中的故障。这就是我了解到 syslog 几乎没什么用,您必须定期检查 hpasmcli/hpacucli 的原因。

相关内容