我目前有一个 Kubernetes 环境,其总体运行不佳(对命令的响应时间很慢、pod 未被安排等)。
我无法以事件或错误(我遇到的)的形式找到任何故障排除信息来指出问题的原因。
我想问的是,有哪些常规方法可以让我开始获取集群的运行状况,并开始尝试找出这里出了什么问题。
我已经看到了kubectl cluster-info dump
建议,但是这给了我 600K 行元数据,其中没有什么明显的突出之处(虽然它有 600k 行所以我可能错过了一些东西)。
答案1
如果某个 pod 未被安排,则该 pod 描述的事件部分中应该有一个原因:
kubectl describe pod <podname>
当这没有任何意义时,我接下来要做的事情是查看节点状态并查看是否有任何东西未处于就绪状态:
kubectl get node
最后,我进入工作节点并查看系统日志,了解 kubelite 的任何内容
tail -f /var/log/syslog