访问已重新创建的 GCE VM 的串行控制台?

访问已重新创建的 GCE VM 的串行控制台?

我曾遇到过几个 GKE 节点崩溃并被重新创建的情况,但没有任何原因详细信息。我不知道接下来该怎么办。我已登录服务器并检查了 systemd(ugh)日志,但它只包含当前启动(即使使用 -b1);我怀疑他们为替换的 VM 从头开始​​重新创建了启动磁盘。我查看了串行控制台,但看起来它只会返回到当前启动。

崩溃之前我真正拥有的只有 IG、IGM 和 GKE 节点池 Stackdriver 日志,除了时间戳外没有提供任何其他信息。我想分享它们,但实际上除了时间戳、主体和所涉及的资源外什么也没有。我的狂野的预感是某些服务使用了太多内存并迫使某些看门狗进入 OOM 状态,但没有数据我无法证明这一点。

所以:

我正在寻找一种方法来查看崩溃前串行控制台上的内容。我不确定这是否可用,这将是不幸的,因为它基本上是专业化数据中心的第一步。a) 这存在吗?b) 如何访问它?

答案1

请记住,GKE 集群中的节点是临时的,由于您的节点已重新创建,因此无法查看崩溃前串行控制台中发生的情况,因为这些节点已不存在。但是,您可以考虑未来的事件,例如使用日志记录功能,并可能使用下沉。内部信息确实比发送到 Stackdriver Logging 的信息要好得多,但如果您的节点已重新创建,这通常意味着某些健康检查失败并且它们已自动修复/重新创建。

编辑:

环顾四周,我发现确实是可能的,只需将以下内容添加到节点池元数据中,请记住,您必须创建一个新的,因为节点池中的实例组元数据不可编辑:

键:serial-port-logging-enable 值:true

相关内容