使用 GKE 的 Kubernetes 部署中 Stackdriver 中缺少日志

2024-5-31 • tag-icon

目前在 GKE 下运行超过 28 个部署，使用自动 fluentd 收集功能将日志记录到 Stackdriver。

掌握 K8s 版本：1.10.6-gke.2
节点版本：1.10.6-gke.2

每分钟记录大约 200 个 JSON 字符串，分布在多个 pod 中。

我们在 Stackdriver 中遇到了间歇性的日志采集中断。使用时检查日志，kubectl我们可以清楚地看到日志以正确的结构化日志格式生成。删除 pod/重新部署似乎可以暂时恢复采集。

我已经检查了 fluentd 及其自动缩放器的日志中是否有错误，但它似乎运行正常。

云控制台中的 Stackdriver API 配额页面显示，一些对日志记录 API 的请求失败了，尽管我不知道如何在使用 GKE 自动日志提取时显示 Stackdriver 产生的错误。配额页面上报告的错误率也不足以解释我们看到的有时超过 24 小时的差距。

这不是预期的行为，如果你有支持，请打开案例以进行进一步调查，否则，请打开错误报告这里。

相关内容