在 GCE 上,突然出现磁盘 I/O 并且无法再使用 SSH

在 GCE 上,突然出现磁盘 I/O 并且无法再使用 SSH

我一直在 GCE 上使用 GPU 运行一项长期作业。它不是可抢占实例。

我在本地终端上使用 SSH 和 TMUX 监控实例上的作业,因此即使 SSH 连接中断,它仍会继续运行。屏幕冻结了,所以我尝试从另一个终端窗口使用 SSH,但 SSH 也冻结了。

我去了 Google 云控制台试图看看发生了什么,并且正在进行大量的磁盘读取:

在此处输入图片描述

我很确定我所做的一切都没有导致磁盘读取。

知道发生了什么吗?我希望我的工作仍在运行,我不想重新开始,所以我宁愿不停止并重新启动我的实例。

答案1

我认为 Womble 是对的,这是一个内存和交换问题。

当实例运行时,我通过 SSH 进入并运行了一个小型快速作业,我认为这将内存需求推到了极限。这种情况持续了几个小时,所以我停止并重新启动了实例。

当我从头开始这项工作时,问题再次出现。这项工作之前可以正常工作,所以我将彻底清除此实例并从头开始创建一个新实例,并希望它再次正常工作。

我无法增加内存,因为我已经使用了最大内存。

相关内容