亚马逊 ECS 批处理作业六小时后失败

亚马逊 ECS 批处理作业六小时后失败

我们有一个 AWS Batch 系统,它可以处理来自一个 S3 存储桶的地理空间图像并存入另一个存储桶。它有一个实例策略,允许它访问存储桶。该系统启动了相当多的并行任务,大多数任务只运行几分钟或几十分钟。有些任务运行时间要长得多,但没有一个任务的运行时间会超过六个小时。

六个小时后,他们运行的 Python3 脚本抛出 TypeError(不是权限错误,不是内存不足错误,也不是任何类型的中断,如 SIGKILL)并停止运行。然后批处理作业停止。

我们假设我们的脚本中有一个错误 - 但当在 EC2(或在真实的 PC 上)上运行完全相同的脚本、使用完全相同的输入时,脚本可以毫无错误地完成运行,即使运行时间超过六个小时。

我们想知道 AWS Batch 中是否存在一些内部限制?没有发生长期 AWS 调用,会话令牌正在顺利地自我更新,据我们所知,我们没有达到任何帐户限制。

相关内容