如何查找导致 GKE 中 AUTO_REPAIR_NODES 事件的原因

Question

您的集群是否启用了主日志？控制器管理器会为您提供更清晰的画面。

另一个潜在原因是 webhook。如果它们阻止任何系统 pod 正确部署，节点将处于未就绪状态，并显示消息“CNI 插件未启动”。因此，我的建议是检查用户定义的 webhook 范围并删除 kube-system 命名空间（如果包含）。

如果您有控制器日志，请将其粘贴到这里。这样我就可以进一步帮助您。

Answer 1

您的集群是否启用了主日志？控制器管理器会为您提供更清晰的画面。

另一个潜在原因是 webhook。如果它们阻止任何系统 pod 正确部署，节点将处于未就绪状态，并显示消息“CNI 插件未启动”。因此，我的建议是检查用户定义的 webhook 范围并删除 kube-system 命名空间（如果包含）。

如果您有控制器日志，请将其粘贴到这里。这样我就可以进一步帮助您。

相关内容