nagios 错误地报告数据包丢失

Question 1

在您使用不同的工具验证了数据包丢失之后，首先您需要找出哪个插件实际上正在检查数据包丢失。找到该插件并在 nagios 中定义的间隔后手动运行它，并检查其输出是否能给您提供线索。问题似乎不是数据包丢失，而是插件故障。验证插件输出后，将该输出与其他工具的输出进行比较（查看它是否显示任何数据包丢失，而其他工具是否没有显示）。通常插件是 check_ping。

Answer

在您使用不同的工具验证了数据包丢失之后，首先您需要找出哪个插件实际上正在检查数据包丢失。找到该插件并在 nagios 中定义的间隔后手动运行它，并检查其输出是否能给您提供线索。问题似乎不是数据包丢失，而是插件故障。验证插件输出后，将该输出与其他工具的输出进行比较（查看它是否显示任何数据包丢失，而其他工具是否没有显示）。通常插件是 check_ping。

Question 2

我第一次尝试使用 Nagios 时也遇到了类似的问题。在尝试解决问题时，我发现这博客文章指出，如果您尝试在服务器上没有 IPV6 地址的 IPV6 服务器上 ping 操作，则可能会出现此问题。

因此，解决方案是重写 Nagios 配置对象文件中的“check_ping”命令。在我们的一个 .cfg 文件中，我添加了以下内容：

define command {
    command_name    check_ping_ipv4
    command_line    $USER1$/check_ping -4 -H $HOSTADDRESS$ -w 3000.0,80% -c 5000.0,100% -p 5
}

请注意命令后面的“-4”参数check_ping。它将强制 ping 仅使用 IPV4。定义上述命令后，我可以在服务定义中使用它。例如：

define service {
    service_description     PING
    host_name               MYHOST
    check_command           check_ping_ipv4!100.0,20%!500.0,60%
    use                     generic-service
}

Answer

我第一次尝试使用 Nagios 时也遇到了类似的问题。在尝试解决问题时，我发现这博客文章指出，如果您尝试在服务器上没有 IPV6 地址的 IPV6 服务器上 ping 操作，则可能会出现此问题。

因此，解决方案是重写 Nagios 配置对象文件中的“check_ping”命令。在我们的一个 .cfg 文件中，我添加了以下内容：

define command {
    command_name    check_ping_ipv4
    command_line    $USER1$/check_ping -4 -H $HOSTADDRESS$ -w 3000.0,80% -c 5000.0,100% -p 5
}

请注意命令后面的“-4”参数check_ping。它将强制 ping 仅使用 IPV4。定义上述命令后，我可以在服务定义中使用它。例如：

define service {
    service_description     PING
    host_name               MYHOST
    check_command           check_ping_ipv4!100.0,20%!500.0,60%
    use                     generic-service
}

Question 3

手动运行 ping（或其自身的 check_ping 二进制文件）未发现任何受影响主机出现故障

这是检查数据包丢失的非常愚蠢的方法。您应该定期比较 NIC 记录的重新传输（netstat -r）或使用 pastmon 或 wireshark 等工具捕获流量。因为：

1)您已经说过数据包丢失是突发的——您怎么知道在数据包丢失发生时您正在路径上运行 ping ？

2）少量的数据包丢失会对吞吐量产生很大的影响 - 这就是我们监控它们的原因 - 如果您想确认 1% 的数据包丢失，那么您需要在路径上发送至少 200 个数据包 - 您发送了多少个？

3）然而，这里最重要的 WTF 是 TCP 和程度较小的 UDP 的行为与 ICMP 非常不同 - 后者受拥塞问题的影响要小得多（即使假设一致的 1500 MTU）

也就是说，你没有提供有效证据证明数据包丢失是虚假的。但是，你提供的证据表明你并不真正了解你试图测量的内容。

但同一网络上的其他主机没有相同的损失

你认为数据包丢失只发生在主机之间吗？这大错特错。

Answer