编辑:这是一个失控的申请流程,而不是 GCE。以下是问题所在,并回答如下:
我的试用帐户上的 CE VM 刚刚出现了某种中断,但我没有在 Google Compute 中断列表中看到任何中断报告。
我不确定它持续了多久,因为我不确定它何时开始的。从行为来看,它与几周前发生的事情相符(在虚拟机重新启动之前,无法通过 Compute Engine 仪表板使用 SSH 登录)。
我的测试虚拟机在过去一天左右断开了我的 SSH 连接,今天我注意到我无法重新连接。然后我尝试使用 Compute Engine 虚拟机列表上的“SSH”连接来连接 SSH,但失败了。我唯一能做的就是在串行控制台上得到一个提示……但我根本没有启用密码的帐户,我依赖于 SSH(现在已修复)。我不得不停止虚拟机并重新启动它……然后我可以使用虚拟机列表上的“SSH”连接选项进行连接,尽管我无法从外部连接。我连接到串行控制台并看到一些尝试连接到各种快照的网络错误消息。我尝试从我的 SSH 窗口通过 SSH 连接到虚拟机的远程服务器,最初无法连接。大约一分钟后,它成功了,然后远程连接突然又恢复了。
编辑:我收到了 Google 的支持请求的回复。他们说我经历了一次实时迁移事件。这听起来不对。这至少是 10 分钟的网络中断。我可以连接到串行控制台,它似乎响应迅速。只有在重新启动并且 Google 管理快照无法初始化后,它才似乎突然开始工作。也许是启动时通信失败触发了迁移事件?我不知道。
编辑:我不再担心 GCE 的稳定性,因为基础设施与该问题无关。
答案1
答案2
该实例在串行控制台上似乎可以正常运行,但实际上由于失控的 root 特权进程(临时测试)占用了所有可用内存,它处于高度困境。系统 OOM 终止程序不断终止该进程,但该进程又会重新出现。
Google Compute Engine 默认应该会监控系统内存使用情况。但奇怪的是,它却没有这么做。
所以,呃……鉴于这种情况,这个问题对任何人来说似乎都没什么用。应该删除吗?