我在 EC2 实例中照看一个 Python 守护进程,监视传入的作业并在其中运行 PyTorch 推理弹性推理。
当没有工作的时候,我休眠实例。当有作业时,实例被唤醒,Python 脚本从冻结的地方继续循环。
当脚本从休眠状态唤醒后尝试运行推理时,它会抛出此错误:
EI Error Code: [1, 4, 1]
EI Error Description: Internal error
EI Request ID: PT-1F304B24-DCB7-48A0-8ABB-0D30XXXXXXXX -- EI Accelerator ID: eia-7646efb5xxxxxxxxxxxxxxxxxxxxxxxx
EI Client Version: 1.7.0
如果我不休眠(连续运行或完全停止/启动)那么一切都正常。
我更喜欢休眠,因为唤醒后恢复工作处理的速度比冷启动快得多。
如何调试上述问题?
我猜想脚本运行时会与 EI 加速器建立一些进程/内存关联,而休眠时这些关联会丢失。有没有办法让它保留下来?