Google Compute Engine - 无法通过 SSH 连接?VM 失去网络访问权限?

Google Compute Engine - 无法通过 SSH 连接?VM 失去网络访问权限?

编辑:这是一个失控的申请流程,而不是 GCE。以下是问题所在,并回答如下:

我的试用帐户上的 CE VM 刚刚出现了某种中断,但我没有在 Google Compute 中断列表中看到任何中断报告。

我不确定它持续了多久,因为我不确定它何时开始的。从行为来看,它与几周前发生的事情相符(在虚拟机重新启动之前,无法通过 Compute Engine 仪表板使用 SSH 登录)。

我的测试虚拟机在过去一天左右断开了我的 SSH 连接,今天我注意到我无法重新连接。然后我尝试使用 Compute Engine 虚拟机列表上的“SSH”连接来连接 SSH,但失败了。我唯一能做的就是在串行控制台上得到一个提示……但我根本没有启用密码的帐户,我依赖于 SSH(现在已修复)。我不得不停止虚拟机并重新启动它……然后我可以使用虚拟机列表上的“SSH”连接选项进行连接,尽管我无法从外部连接。我连接到串行控制台并看到一些尝试连接到各种快照的网络错误消息。我尝试从我的 SSH 窗口通过 SSH 连接到虚拟机的远程服务器,最初无法连接。大约一分钟后,它成功了,然后远程连接突然又恢复了。

编辑:我收到了 Google 的支持请求的回复。他们说我经历了一次实时迁移事件。这听起来不对。这至少是 10 分钟的网络中断。我可以连接到串行控制台,它似乎响应迅速。只有在重新启动并且 Google 管理快照无法初始化后,它才似乎突然开始工作。也许是启动时通信失败触发了迁移事件?我不知道。

编辑:我不再担心 GCE 的稳定性,因为基础设施与该问题无关。

答案1

发生这种情况的原因可能有很多。我建议检查 SSH 故障排除文档有关如何解决此问题的更多信息。

如果实时迁移后 Linux 客户机环境未正确启动,也可能会出现此问题。客户机环境包括一组脚本和进程,它们运行元数据服务器中的内容并为虚拟机运行创建适当的环境。在客户机环境设置期间,SSH 密钥可能未正确设置。

您还可以将“automaticRestart”字段设置为“true”,如文档。如果实例因硬件问题或实时迁移后崩溃,这将自动重启实例。这将确保正确设置 SSH 密钥。请随时阅读实时迁移文档如果您需要有关 Google Cloud Platform 实时迁移的更多信息。

答案2

该实例在串行控制台上似乎可以正常运行,但实际上由于失控的 root 特权进程(临时测试)占用了所有可用内存,它处于高度困境。系统 OOM 终止程序不断终止该进程,但该进程又会重新出现。

Google Compute Engine 默认应该会监控系统内存使用情况。但奇怪的是,它却没有这么做。

所以,呃……鉴于这种情况,这个问题对任何人来说似乎都没什么用。应该删除吗?

相关内容