竞价实例有时会变慢并丢失连接

竞价实例有时会变慢并丢失连接

我在 AWS EKS 中部署了一个系统,有时 Spot 实例指标会下降,并且对这些节点的 API 调用非常慢。这是我的系统:

  • 1 个 EKS 集群
  • 1 个按需节点组
  • 1 个 Karpenter v0.29.2 配置器用于配置现货节点(2vcpu,8-16G - [“m5a.large”、“m5.large”、“m6i.large”、“r5a.large”、“m5d.large”、“r5.large”、“r6i.large”、“r5n.large”、“c5.xlarge”、“c6i.xlarge”])
  • 并且我的 API pod 在节点中运行(每个节点 6-8 个 pod)。

我发现 API 速度减慢了大约 20 秒(正常情况下为 10-20 毫秒),然后我检查了 Prometheus 指标“up”,有时会得到 0(每次 1-3 分钟),尽管流量没有增长太多。指标恢复到 1 后,API 性能开始恢复正常。同时,有时连接到 Redis 或 Mongo 会超时或被拒绝。

在此处输入图片描述

以下是节点系统日志:

在此处输入图片描述

我查看了节点的系统日志,并将其与其他运行良好的节点的日志进行了比较,没有任何差异。

我想知道为什么 Karpenter 点节点有时会变慢。有没有人遇到过这个问题,或者知道如何调试?非常感谢!

更新:我转而使用 Karpenter 预配程序中的按需模式,但问题仍然存在。特别是,当我增加节点中的 API pod 数量时,这种情况会更频繁地发生,因此我决定暂时减少 pod 数量。CPU 和内存的指标约为 50-70%。在 3000 IOPS 的 gp3 上,磁盘 IOPS 低于 600 IOPS。我认为它没有达到极限阈值或受到限制。

相关内容