今天,两台不同的 HP ProLiant 服务器上的磁盘都进入了预测故障状态。其中一台服务器运行 Windows Server 2008 R2,另一台运行 Oracle Enterprise Linux 5(基于 RHEL5 的发行版)。
如果我查看这些服务器的集成管理日志,Windows 服务器有一个“警告”条目,宣布预测故障,但 OEL 服务器没有相同的条目。
我们有一些围绕 IML 的现有业务流程(票务集成、报告等),因此希望在那里显示这些信息。Windows 系统的所有功能都很好,但 OEL 服务器却没有任何功能。
我回顾了我的监控系统的警报历史记录,结果显示情况一直如此——Windows 服务器报告其磁盘故障(预测和实际),而 OEL 服务器则不报告。
SNMP 陷阱警报似乎正在工作;这些警报记录在 root 的邮件文件中,并被捕获到文件中/var/log/messages
。有趣的是,OEL 服务器上的 IML做似乎显示了之前磁盘故障的已修复条目。日志中似乎缺少初始警告或故障条目。
Windows 服务器已安装所有 HP 管理代理,作为操作系统 Intelligent Provisioning/Smart Start 安装的一部分。OEL 服务器已启用 RHEL5 HP yum repo,并安装了hpsmh
、hpilo
和软件包。hp-health
hp-snmp-agents
Windows 服务器是 DL380p Gen8,而 OEL 服务器是 DL380 G7。我没有其他运行 OEL 的服务器代来比较(尽管这似乎是我运行 OEL 的三台 DL380 G7 服务器的共同问题)。进一步检查显示其他 Windows 服务器上存在 IML 记录的驱动器错误,至少可以追溯到 G5(所以我不认为这是代问题)。
我也查看了启动/配置脚本,/opt/hp/hp-snmp-agents/storage/etc/cma*
但看不到任何与 IML 相关的内容(并不是说我真正知道我在这里寻找什么)。
是不是因为缺少包或者配置语句(即某些容易纠正的东西)导致这些消息到达 IML?
或者这是一个已知问题(让我别无选择,只能将其他东西侵入业务流程)?
答案1
我认为您不应该只依赖 HP IML 日志。那里不会报告所有内容,而且日志可以清除。我不认为它是系统健康状态的权威来源。此外,根据事件的不同,项目会被标记为已修复。
如果你需要比较一下繁忙的 EL5 系统的 IML 日志应该是什么样的,参见此 pastebin。但我的大多数 IML 日志在某个时候都被清除了……例如:
# hplog -v
ID Severity Initial Time Update Time Count
-------------------------------------------------------------
0000 Information 03:14 02/26/2014 03:14 02/26/2014 0001
LOG: Maintenance note: IML cleared through hpasmcli
0001 Repaired 20:09 05/07/2014 02:38 09/08/2014 0005
LOG: Network Adapter Link Down (Slot 0, Port 1)
0002 Information 05:29 06/30/2014 05:29 06/30/2014 0001
LOG: Firmware flashed (iLO 4 1.51)
0003 Information 03:07 08/12/2014 03:07 08/12/2014 0001
LOG: Firmware flashed (iLO 4 2.00)
Linux 中的 HP 管理代理可以轻松设置为发送 SNMP 陷阱和电子邮件。
/etc/snmp/snmpd.conf 中的典型配置:
# Following entries were added by HP Insight Management Agents at
# Wed Feb 26 03:12:45 PST 2014
dlmod cmaX /usr/lib64/libcmaX64.so
rwcommunity bigbanana
rocommunity bigbanana
syscontact Systems <[email protected]>
syslocation Anaheim, CA
对于 /opt/hp/hp-snmp-agents/cma.conf
########################################################################
# trapemail is used for configuring email command(s) which will be
# executed whenever a SNMP trap is generated.
# Multiple trapemail lines are allowed.
# Note: any command that reads standard input can be used. For example:
# trapemail /usr/bin/logger
# will log trap messages into system log (/var/log/messages).
########################################################################
trapemail /bin/mail -s 'HP Insight Management Agents Trap Alarm - Big Banana' [email protected]
Linux 的 HP 管理代理应该很简单。您需要以下软件包:
hp-snmp-代理、hpssa、hp-health、hp-smh-模板、hpsmh、hpssacli、hponcfg