目前在 GKE 下运行超过 28 个部署,使用自动 fluentd 收集功能将日志记录到 Stackdriver。
掌握 K8s 版本:1.10.6-gke.2
节点版本:1.10.6-gke.2
每分钟记录大约 200 个 JSON 字符串,分布在多个 pod 中。
我们在 Stackdriver 中遇到了间歇性的日志采集中断。使用时检查日志,kubectl
我们可以清楚地看到日志以正确的结构化日志格式生成。删除 pod/重新部署似乎可以暂时恢复采集。
我已经检查了 fluentd 及其自动缩放器的日志中是否有错误,但它似乎运行正常。
云控制台中的 Stackdriver API 配额页面显示,一些对日志记录 API 的请求失败了,尽管我不知道如何在使用 GKE 自动日志提取时显示 Stackdriver 产生的错误。配额页面上报告的错误率也不足以解释我们看到的有时超过 24 小时的差距。