外部监控显示多个区域和服务类型出现中断。Azure 显示未出现中断

外部监控显示多个区域和服务类型出现中断。Azure 显示未出现中断

我正在使用一项名为 Monitis 的服务来监控我的一些基于 Web 的资源的正常运行时间。基本上,它会从三个地理位置(美国西部、美国东部和美国中部)对我的资源进行 ping,如果其中两个或多个资源的 ping 时间在较长时间内超过 10 秒,就会发出警报。

周六,我的三个资源(全部位于 Azure)同时从三个 ping 位置记录到了 18 分钟的中断: 停电清单
(以上时间为日本时区。相当于 10 月 21 日太平洋时间凌晨 4:10-4:28)

其中,
[绿色] 是两个相同 Web 应用程序的主机名,一个位于美国西部,一个位于美国东部,使用流量管理器进行平衡。Monitis 中的错误包括美国东部服务的 IP 地址,因此当 Monitis 尝试 ping 它时,主机名似乎解析为美国东部服务。
[紫色] 是美国中北部的一个 Web 应用程序,扩展到两个 S1 实例
[蓝色] 是美国东部的一个虚拟机

我有 Monitis 正在监控的第四个 Azure 服务,即位于美国西部的一台虚拟机。与其他服务不同,Monitis 配置为从美国中部、澳大利亚和德国对该服务进行 ping。对于该服务,从美国中部进行的 ping 显示在同一时间发生中断,但从澳大利亚和德国进行的 ping 显示没有中断。

我检查了 Azure 中这两个 Web 应用程序的监控图表,在指定时间段内,它们均未显示任何停机时间。两者都显示该时间段内传入和传出的请求,并且没有实例重新启动。[绿色] 在该时间段内活动略有增加,但没有什么异常。

VM 显示它自 9 月份以来一直处于运行状态,并且在所谓的中断期间在系统事件日志中没有显示任何异常。

我的问题:

  1. 有什么方法可以查明这里发生了什么?如上所述,Azure 表示活动没有中断,但看起来很像是有中断。
  2. 为什么 Monitis 会显示多个 Azure 区域中多种类型的服务出现 18 分钟的中断?如果在此期间 Azure 的网络基础设施出现中断,则 Azure 状态历史记录中没有任何迹象。奇怪的是,Web 应用程序似乎都报告在所谓的中断期间接收和处理请求。
  3. 标记为 [绿色] 的服务在流量管理器中与美国西部的服务设置相同,因此当美国东部服务无法访问时,Monitis 应该被重定向到美国西部服务,但这似乎没有发生。你能想到为什么这不起作用吗?如果 Azure 认为该服务始终处于健康状态,那么这很有道理,但如果流量管理器不重定向流量,我该如何处理一个区域无法访问的情况?

相关内容