我们有一些基于 AWS ECS 的 Fargate 托管任务/服务,它们在许多 ALB 后面运行。我们似乎经常在健康检查中收到来自我们自己的监控的无意义警报。这种情况每二十或三十分钟就会发生一次,即使所有系统都在运行,没有用户抱怨问题。健康检查非常轻松。内部服务只执行简单的 DB ping。外部服务只执行执行简单 DB ping 的 API ping。
鉴于瞬态基础设施问题是现实生活中的现实,而且每当 AWS 遇到部分不稳定时,这种频繁的请求就可能遇到这些问题,我们是否应该在允许这些 API 处理程序失败之前重试几次,并确保健康检查超时也允许最大期限?我们是不是应该不每次都发送有关故障的警告?