我曾遇到过几个 GKE 节点崩溃并被重新创建的情况,但没有任何原因详细信息。我不知道接下来该怎么办。我已登录服务器并检查了 systemd(ugh)日志,但它只包含当前启动(即使使用 -b1);我怀疑他们为替换的 VM 从头开始重新创建了启动磁盘。我查看了串行控制台,但看起来它只会返回到当前启动。
崩溃之前我真正拥有的只有 IG、IGM 和 GKE 节点池 Stackdriver 日志,除了时间戳外没有提供任何其他信息。我想分享它们,但实际上除了时间戳、主体和所涉及的资源外什么也没有。我的狂野的预感是某些服务使用了太多内存并迫使某些看门狗进入 OOM 状态,但没有数据我无法证明这一点。
所以:
我正在寻找一种方法来查看崩溃前串行控制台上的内容。我不确定这是否可用,这将是不幸的,因为它基本上是专业化数据中心的第一步。a) 这存在吗?b) 如何访问它?