AWS 目标群体时常会变得不健康且暴躁

AWS 目标群体时常会变得不健康且暴躁

我时常发现,尽管端口分配正常且任务看似正常,但服务部署却因为目标组进入不健康状态而无法完成。每次部署和重新部署,即使是较早的版本,都会开始失败(任务出现,然后停止,任务或 ECS 控制台中没有错误输出)。

一旦我确定了这种行为,我需要清除我们的目标群体(以及 ALB,这是必要的初步步骤),有时是在一天的中间,并让 Terraform 重新部署它们。最后一次发生在几个月前,我花了一些时间对流程的每个方面进行逆向工程,直到我偶然了解到这一点。今天又发生了。

这是否只是系统可接受的行为,还是我应该调查可能导致这种情况的原因?我无法想象非常大的客户(拥有数百种服务,没有空间处理可能成倍增加的问题)必须处理这种情况。

相关内容