SNMPD 正在运行,但未随机监听连接

SNMPD 正在运行,但未随机监听连接

操作系统:CentOS 版本 5.7(最终版)Net-SNMP:net-snmp-5.3.2.2-14.el5_7.1(来自 RPM)

我的 NMS 会定期通知我这台机器上的 SNMP 已关闭。服务会在 10 到 30 分钟内恢复。我的 NMS 还会 ping 并检查 SSH,这些服务在 SNMP 中断期间不会受到影响。

SNMPD 日志文件显示它正在运行并且显然正在接收数据包(来自 127.0.0.1 的本地代理或来自我的 NMS 172.16.37.37),但是尝试在本地或从 NMS 系统进行 snmpwalk 时会因超时而失败。

我有 7 台这样的服务器,它们混合运行 CentOS 5.7 和 RHEL 5.7,并从 RPM 安装了此特定版本的 Net-SNMP - 除了这个问题之外,其他服务器都没有这个问题。5 台机器(包括 NMS 系统和这台问题服务器)位于同一机架中,使用一台交换机连接。

重新启动 SNMPD 并不能解决问题 - 最终它会自行解决。有什么建议我可以从哪里开始诊断问题?这是一个封闭的子网,因此不使用 IPTables。SNMPD 配置如下:

# Following entries were added by HP Insight Management Agents at
#      Tue May 15 10:58:17 CLT 2012
dlmod cmaX /usr/lib64/libcmaX64.so
rwcommunity public 127.0.0.1
rocommunity public 127.0.0.1
rwcommunity 3adRabRu 172.16.37.37
rocommunity 3adRabRu 172.16.37.37
rwcommunity 3adRabRu 172.16.37.36
rocommunity 3adRabRu 172.16.37.36
trapcommunity callmetraps
trapsink 172.16.37.37 callmetraps
trapsink 172.16.37.36 callmetraps
syscontact Lukasz Piwowarek
syslocation Santiago, Chile
# ---------------------- END --------------------
agentAddress udp:161
com2sec rwlocal default public
com2sec rolocal default public
com2sec subnet  default 3adRabRu
group   rwv2c   v2c             rwlocal
group   rov2c   v2c             rolocal
group   rov2c   v2c             subnet
view    all     included        .1
access  rwv2c   ""      any             noauth          exact   all     all     none
access  rov2c   ""      any             noauth          exact   all     none    none

答案1

关于这一点,有几个问题需要解决。

查看您的配置,我看到 OpenNMS 作为监控解决方案、HP ProLiant 服务器硬件、可能的软件包版本和驱动程序问题,以及您可能对 snmpd 选项进行的一些调整。

您使用的是最新版本的 OpenNMS 吗?当前修订版本为 1.10.3您正在轮询的机器是否与 NMS 系统无关?这是旧版 OpenNMS 的问题,还是新安装的?

我还看到了一个模块HP ProLiant 管理代理加载到配置的第一行snmpd.conf。它为 ProLiant 支持包和 HP 健康代理提供信息。这是您监控的唯一 HP 服务器吗?要测试 HP snmp 配置,您可以访问系统管理主页https://服务器.ip:2381? 系统传感器(温度、存储、ILO)是否正确显示?如果没有,则表明您的 SNMP 设置存在问题。

在 OpenNMS 方面,轮询器有非常灵活的日志记录选项。我们可以帮助您获取所需的信息,但如果它只影响一个节点,我不认为这是一个一般的 OpenNMS 问题。您可以从数据库中删除该节点并重新发现它以测试此理论。

对于有问题的主机,您可能需要编辑/etc/sysconfig/snmpd.options减少日志详细程度以防万一出现问题。


我的猜测是,这是一个 OpenNMS 轮询/DB 问题,或者是单个问题系统上的 HP 代理和 snmp 的交互。

答案2

您是否尝试过增加 NMS 上的 SNMP 超时和重试次数?有时可能是您的服务器响应不够快,或者您的网络丢失了数据包。

而且,正如@rnxrx 已经指出的那样,您需要查找端口 161 以查看 snmpd 是否正在监听。

答案3

我找到了原因,但没有找到解决办法。似乎 MySQL 导致整个系统无响应。它如何影响从 SNMP 到 SSH 的一切以及整个系统的响应能力(本应立即响应的命令需要 30 秒以上才能响应),我实在无法理解。这是一台双 CPU 机器,配备 96GB RAM,用于 4 小时的极度密集数据关联,但在我们运行程序(向 MySQL 插入数百万条数据)后,整个系统即使处于近乎空闲的状态,也只是缓慢运行。重新启动 MySQL 即可立即解决问题。

相关内容