我想监控一些服务器,其中一些服务器的连接性可能非常不稳定。
这是因为它们位于仅向消费者提供互联网访问的办公地点。
我担心通常的方法 - 每分钟或其他间隔进行一次 http 检查或其他操作 - 短暂的中断可能不会被注意到,因为它们发生在检查之间,但很可能会导致敏感服务连接不足或完全中断它们。
事实上我们在一个地方遇到了这样的问题,我已经花了几个小时在电话里向有线电视公司大喊大叫。
我们目前正在评估将直接运营商上行链路连接至级别 (3) 的可能性,这将非常棒并且会让我的生活变得轻松很多。
但为了做到这一点,我需要一些可靠的数字而不是一些模糊的经验报告。
因此,我想要的是一些打开套接字连接的正常运行时间监视器,使其保持打开状态并在相当短的时间间隔(可能是 20 秒)内请求响应。
如果没有响应,则说明自上次检查以来连接一定已经中断。
我将来也会使用这种方法来实现“更好”的服务器监控。
我的问题是:
- 我对网络工作方式的理解有误吗?这样的事情是个好主意吗?
- 是否有任何我可以立即使用的解决方案或我必须自己做吗?
答案1
我认为您可能应该从数据包丢失和延迟的角度来监控。您可以使用某些工具每秒不断 ping 一次,使用 Nagios 等其他工具在超过规定时间的情况下通过电子邮件发送问题。结合这些工具和一些经过深思熟虑的外部监控点,可以更全面地了解故障发生的时间和地点,这样您就可以获得一些良好的指标来为自己争取利益。
答案2
为什么不监控所有敏感服务,而不仅仅是简单的 ping。检查 sql、http、ldap(或其他)。当今大多数监控工具都可以进行深度服务检查。这样你就不用太在意连接,只要关心应用程序是否运行良好就行了。