有人知道如何修复 Red Hat 5.1 上 omsa 报告“未找到控制器”的问题吗？

Question 1

service dataeng restart我假设您已完成重新启动 OMSA（）并确保 IPMI 已加载的基本故障排除步骤：

service dataeng stop
service dsm_sa_ipmi start
service dataeng start

导致此问题的一个常见但不明显的原因是系统信号量耗尽。检查您的系统日志；如果您看到类似以下内容：

Server Administrator (Shared Library): Data Engine EventID: 0  A semaphore set has to be created but the system limit for the maximum number of semaphore sets has been exceeded

那么你的信号量就用完了。

您可以运行ipcs -s列出系统上当前分配的所有信号量，然后使用ipcrm -s <id>删除信号量（如果您确信不再需要它）。您可能还想追踪创建它们的程序（使用来自的信息）ipcs -s -i <id>以确保它没有泄漏信号量。但根据我的经验，大多数泄漏都来自在运行清理代码之前被中断的程序（由段错误或类似原因造成）。

如果您的系统确实需要当前分配的所有信号量，则可以增加可用的信号量数量。运行sysctl -a | grep kernel.sem以查看当前设置。最终数字是系统上可用的信号量数量（通常为 128）。将该行复制到中/etc/sysctl.conf，将最终数字更改为更大的值，保存并运行sysctl -p以加载新设置。

Answer

service dataeng restart我假设您已完成重新启动 OMSA（）并确保 IPMI 已加载的基本故障排除步骤：

service dataeng stop
service dsm_sa_ipmi start
service dataeng start

导致此问题的一个常见但不明显的原因是系统信号量耗尽。检查您的系统日志；如果您看到类似以下内容：

Server Administrator (Shared Library): Data Engine EventID: 0  A semaphore set has to be created but the system limit for the maximum number of semaphore sets has been exceeded

那么你的信号量就用完了。

您可以运行ipcs -s列出系统上当前分配的所有信号量，然后使用ipcrm -s <id>删除信号量（如果您确信不再需要它）。您可能还想追踪创建它们的程序（使用来自的信息）ipcs -s -i <id>以确保它没有泄漏信号量。但根据我的经验，大多数泄漏都来自在运行清理代码之前被中断的程序（由段错误或类似原因造成）。

如果您的系统确实需要当前分配的所有信号量，则可以增加可用的信号量数量。运行sysctl -a | grep kernel.sem以查看当前设置。最终数字是系统上可用的信号量数量（通常为 128）。将该行复制到中/etc/sysctl.conf，将最终数字更改为更大的值，保存并运行sysctl -p以加载新设置。

Question 2

按照 asciiphil 的说明操作对我有用。在我的例子中，nrpe有很多与打开管理相关的信号量打开。清理它们并重新启动一切。

失败了：

omreport chassis memory
Memory Information

Error : Memory object not found

确保有足够的信号量：

sysctl -a | grep kernel.sem
ipcs -s |wc -l

停止nrpe使用omreport：

/etc/init.d/nrpe stop

删除nrpe信号量：

ipcs -s | awk '/nrpe/ {print "ipcrm -s ",$2}  ' | sh 
/etc/init.d/dataeng stop
/etc/init.d/dsm_sa_ipmi stop
/etc/init.d/dsm_sa_ipmi start
/etc/init.d/dataeng start

确保一切顺利

tail -n 50 /var/log/messages

测试：

omreport chassis memory

重新开始nrpe：

/etc/init.d/nrpe restart

Answer