我有 20.04 LTS 并以 root 身份运行 yolov5 模型(以排除权限问题)并且模型启动正常,然后训练的第一个时期开始,什么也没有发生,然后我看到“killed”这个词,一切都停止了。
linux 仍在运行并且终端正常。
我怎样才能找出 Linux 终止某个进程的原因?
答案1
我诊断出问题是内存不足(8GB内存)。
我用了 :
dmesg -T| grep -E -i -B100 'killed process'
并显示内存不足的消息。
我确定我的模型训练批次大小太大,所以我将其从 32 降到 4 ,然后它启动并正常运行。
希望这对某人有帮助。