AWS 目标群体时常会变得不健康且暴躁

2024-6-2 • tag-icon

我时常发现，尽管端口分配正常且任务看似正常，但服务部署却因为目标组进入不健康状态而无法完成。每次部署和重新部署，即使是较早的版本，都会开始失败（任务出现，然后停止，任务或 ECS 控制台中没有错误输出）。

一旦我确定了这种行为，我需要清除我们的目标群体（以及 ALB，这是必要的初步步骤），有时是在一天的中间，并让 Terraform 重新部署它们。最后一次发生在几个月前，我花了一些时间对流程的每个方面进行逆向工程，直到我偶然了解到这一点。今天又发生了。

这是否只是系统可接受的行为，还是我应该调查可能导致这种情况的原因？我无法想象非常大的客户（拥有数百种服务，没有空间处理可能成倍增加的问题）必须处理这种情况。

相关内容