我正在尝试通过 SSH 连接到与 ECS 服务关联的 ASG 中的 EC2 实例。为了缩小问题范围,我从同一个启动模板创建了新实例。我仔细验证了我使用的模板版本是否相同,甚至手动翻阅并验证了所有内容(IP 地址等唯一元素除外)是否相同:相同的密钥对、VPC、子网、可用区、安全组、IAM 角色。
我看到的唯一区别是相关的 ASG 和第二个网络接口。
我将非常感激任何关于如何解决此问题的建议或指导。如果有人能给我提供好的资源,我很乐意阅读手册,但到目前为止,我在 AWS 文档迷宫中有点迷失了方向。
编辑:为了添加一些背景信息,我还注意到,我通过 ECS 服务运行的容器任务在我第一次在新建的 EC2 实例上运行它时会正确启动,但随后根本不会启动(没有发出任何日志或事件 - 它只是挂起)。对我来说,这表明可能是 ECS 代理或任务本身破坏了 SSH 连接和这些后续任务的执行。我将尝试将虚拟容器部署到新配置的 EC2 实例。如果这不会破坏 SSH,则表明问题与我正在运行的实际任务有关。
答案1
我通过增加实例的存储空间解决了这个问题。在本例中,从 30 GB 增加到 60 GB。图像非常大(约 15 GB),并且在初始化时还会下载额外的模型。我试图通过尝试两个图像的替代版本来调试一个单独的问题,导致存储空间很快填满并引起问题。