Fargate 自动扩展故障排除

Fargate 自动扩展故障排除

我已经设置了一个 AWS Fargate 集群来运行一项服务并根据 SQS 队列自动扩展其任务。到目前为止一切顺利。该服务已获得 1 个所需任务,但它从未真正从任务定义启动该任务。

有人对如何解决此类问题有什么建议吗?在我看来,这可能是 AWS 的后端问题。或者可能是在子网上寻找空间时出现问题?(子网为空)。

我已经检查了任务过滤器中的“已停止”和“正在运行”的任务,几个小时内没有出现任何任务。

令人沮丧的是,这以前是有效的,我最近对最小任务数和健康检查目标组做了一些更改,但自从看到这个问题后,我就恢复了这些更改。

任何建议都值得赞赏。

缩放问题屏幕截图

答案1

我会检查 cloudtrail 以查看 ECS 尝试启动任务时是否存在任何错误(可能是 RunTask 作为事件名称?)。

从某人发生事件到它出现在 cloudtrail 中会有一点延迟(可能 10 分钟?),所以您不会立即看到您所做的事情的任何变化。但您可以尝试将最小期望值提高到 2,等待 10 分钟,然后检查进行了哪些 API 调用以及结果如何。

相关内容