检测 Azure 应用程序网关停机时间?

检测 Azure 应用程序网关停机时间?

我的一个应用程序网关间歇性地对请求没有响应。有较长时间(用户明显察觉)的停机,也有较短时间(仅几分钟)的停机。

我通过该期间缺少数据的所有 AG 指标图检测到了 AG 的停机时间(而不是网络问题/目标服务器停机时间):

AG CPU 使用率

每次长时间停机后,CPU 使用率都会出现峰值,我一直将其解释为“恢复”的努力。较短的停机时间通常不会出现 CPU 使用率峰值。

AG 均为 v1、层级为“标准”和“小型”sku,具有单个实例数。吞吐量通常非常低,在典型负载下 CPU 使用率不高(在中断之前也不明显)。

我不明白为什么会发生这些中断。我的假设是“微软出了问题”(中断前吞吐量不是特别高)。

我正在尝试通过增加实例数量来缓解或者sku 大小。在“中型”部署中,我仍然遇到了一些严重的中断,但据我所知,另一个具有 2x 小型实例的部署到目前为止没有中断。我发现,除非部署是 2xmedium,否则 Azure 不提供 SLA,但我们宁愿避免这种费用。

问题:我如何检测此类中断?手动检查速度慢且需要随叫随到。我不知道如何设置警报以触发丢失数据,并且所有日志查询似乎都不相关。

相关内容