我的部分网络资产对某个主机有相当重要的依赖性,但该主机的可用性很难检查。它后面有许多主机,而我的 NAGIOS VPS 提供商偶尔会出现路由问题,导致所有这些主机所在的提供商断网。当它不可用时,我更希望它后面的主机显示出来,UNAVAILABLE
而不是DOWN
,因为它们没有关闭。
但其可用性很难检测,因为无法 PING
[me@nagios systems]$ ping -c 1 -w 1 205.251.232.153
[...]
1 packets transmitted, 0 received, 100% packet loss, time 1000ms
并且似乎没有响应查询的网络服务:
[me@nagios systems]$ nmap -P0 -sT 205.251.232.153
[...]
All 1000 scanned ports on 205.251.232.153 are filtered
但是,它确实参与并响应traceroute
s,这使我发现当我尝试与选定范围的 UDP 端口通信时,它将返回 ICMP-port-unreachable。这是tcpdump
我执行 s 时的输出echo foo|nc -u 205.251.232.197 33459
:
[me@nagios systems]$ sudo tcpdump -n -n -i p1p1 host 205.251.232.197
tcpdump: verbose output suppressed, use -v or -vv for full protocol decode
listening on p1p1, link-type EN10MB (Ethernet), capture size 65535 bytes
15:04:01.278269 IP a.b.c.d.36139 > 205.251.232.197.33459: UDP, length 4
15:04:01.448659 IP 205.251.232.197 > a.b.c.d: ICMP 205.251.232.197 udp port 33459 unreachable, length 36
因此,我认为我需要的是一个测试,向主机和端口发送一个 UDP 数据包,并将 ICMP 端口不可达视为成功的证据(听不到任何消息则表示失败)。有人知道这样做的方法吗?其他人如何处理类似的监控问题?
答案1
无论您使用哪种协议检查主机可用性,如果主机存在路由问题,它都会显示为关闭。如果您想检查主机可用性,并且不想启用 ICMP,您可以针对您在那里运行的任何服务执行 check_tcp 或 check_udp。例如,对于 HTTP 使用 check_tcp -p 80,对于 ssh 使用 check_tcp -p 22。
虽然听起来你试图解决的更大问题是不是当网关无法访问时,向网关后面的主机发出警报。这可以通过在 nagios 中定义依赖关系来解决。网关后面的主机(或服务)应该依赖于网关盒。然后,如果网关关闭,它不会向你发出其他主机的警报。(http://nagios.sourceforge.net/docs/3_0/dependencies.html)
答案2
我终于意识到,如果我可以跟踪路由通过主机,我也应该能够跟踪路由到该主持人并经过测试,证实了情况确实如此。
我可以在以下网站找到所有与 traceroute 相关的插件:NAGIOS 交换比这更复杂;他们想要验证诸如链中第一跳或第二跳的身份等。我想要的只是一个插件,它可以验证我是否可以跟踪路由到主机并获得响应。我找到了一个(大致)可以做到这一点的插件,并将其修改为适用于 Linux(特别是 CentOS 6);它出现在下面,以防它对任何人有用。
#!/bin/sh
#set -vx
################################################################################
# AUTHOR: Vladimir Vuksan
# E-mail: Check http://vuksan.com/linux/
# License: GPL
# changes by Tom Yates, http://www.teaparty.net/
################################################################################
if [ $# -ne 1 ]; then
echo "Usage: $0 <ip.address>"
exit;
fi
IP=${1}
TRACEROUTE=`/bin/traceroute -n ${IP} 2>&1 | grep "${IP} "`
RESULT=`echo $TRACEROUTE | grep -c ms`
if [ $RESULT -eq 1 ]; then
echo TRACERT OK: `echo $TRACEROUTE | cut -f4- -d" "`
exit 0
else
echo TRACERT CRITICAL: Host unreachable
exit 2
fi
该主机此后已多次不可用,而我的 NAGIOS 做了正确的事情:远端的所有主机都发出 UNAVAILABLE 警报,而不是 DOWN。