ALB：负载平衡健康检查在失败时是否应该重试？

2024-6-2 • tag-icon

我们有一些基于 AWS ECS 的 Fargate 托管任务/服务，它们在许多 ALB 后面运行。我们似乎经常在健康检查中收到来自我们自己的监控的无意义警报。这种情况每二十或三十分钟就会发生一次，即使所有系统都在运行，没有用户抱怨问题。健康检查非常轻松。内部服务只执行简单的 DB ping。外部服务只执行执行简单 DB ping 的 API ping。

鉴于瞬态基础设施问题是现实生活中的现实，而且每当 AWS 遇到部分不稳定时，这种频繁的请求就可能遇到这些问题，我们是否应该在允许这些 API 处理程序失败之前重试几次，并确保健康检查超时也允许最大期限？我们是不是应该不每次都发送有关故障的警告？

相关内容