我有一个 pod 最近似乎崩溃了,kubectl get pods
显示 16 次重启,但是当我查看监控时,所有名称中带有“重启”的指标都是空的。
我是否需要明确打开某些东西以便对其进行监控?
答案1
要排除某些崩溃的 Pod 故障,首先应该查看其描述:
$ kubectl describe pod -n ci clair-kube-7c8d8cf949-nlhv8
Containers:
clair:
[...]
State: Running
Started: Wed, 19 Aug 2020 22:06:54 +0200
Last State: Terminated
Reason: OOMKilled
Exit Code: 137
Started: Wed, 19 Aug 2020 13:07:51 +0200
Finished: Wed, 19 Aug 2020 22:06:53 +0200
Ready: True
Restart Count: 42
这里,很明显我应该提高容器内存限制。
有时,您可能看不到原因,只看到退出代码。最终,您会学会识别它们……首先,您必须查找以前的容器日志:
$ kubectl logs -n ci cassandra-kube-2 -c exporter -p --tail=XX
[...]
Exception in thread "pool-1-thread-33" Exception in thread "pool-1-thread-34" java.lang.OutOfMemoryError: Java heap space
java.lang.OutOfMemoryError: Java heap space