我在 hetzner.de 有 3 台专用服务器,我偶尔会收到这些服务器的不可用警报,这些警报来自 2 个独立监控系统(New Relic 和 Pingdom),通常同时针对所有 3 台服务器。
此类警报持续超过 5 分钟,平均每两周发生一次。此外,在大多数情况下,在报告的“停机时间”期间,我可以从家里访问我的服务器,但无法从不同位置的其他服务器访问 - 因此有些请求可以通过,有些则不能,因此可能只有某些位置的服务器不可用(这些位置恰好是“pinger”所在的位置)。
Hetzner 的支持人员反复声称,在发出这些警报时他们没有任何网络问题,也没有其他客户抱怨此类问题。这毫无道理,尤其是因为警报是同时针对所有 3 台服务器发出的,而每台服务器都安装了不同的设置和软件。
我不认为这是一个监控错误,因为我使用的是 2 个不同的监控系统。此外,我在其他数据中心(不是 Hetzner)有具有类似软件配置的服务器,这些服务器没有从这些相同的监控系统收到任何不可用警报。
有谁知道这可能是什么原因造成的以及/或者我如何进一步调查原因以找到解决方案?