尽管有 6Gi 限制，但 Prometheus 仍出现 OOMkilled 问题

Question 1

以下是 Prometheus 占用内存的最可能原因：

时间序列数量过多。考虑到背景，这是最合理的。在 prometheus 中，与唯一时间序列相比，数据点占用的内存并不多。我现在找不到链接，但据我所知，一个数据点大约占用 4 个字节，而没有任何数据点的时间序列大约占用 1Kb。因此，即使没有任何数据点的时间序列也会占用空间并且可能占用内存。您可以通过比较 prod 和 stage 中的时间序列数量来排除这个原因：count({__name__=~".+"})。如果 prod 中的时间序列明显更多，您必须找出原因，并可能进一步减少数量。
PromQL 查询将太多数据加载到内存中。如果您的查询请求长时间或大量时间序列，也可能是原因，因为 prometheus 会尝试将请求的数据加载到内存中。由于 OOM 不断重现，您可以通过阻止对 prometheus 的所有查询来测试此假设，看看它是否仍然会达到 OOM。可能值得一看查询日志也。
节点内存不足。可能只是其他容器消耗了节点上的内存，而 prometheus 被杀死，因为它的内存较低服务质量。只需确保 prometheus 符合保证的 QoS 即可。

Answer

以下是 Prometheus 占用内存的最可能原因：

时间序列数量过多。考虑到背景，这是最合理的。在 prometheus 中，与唯一时间序列相比，数据点占用的内存并不多。我现在找不到链接，但据我所知，一个数据点大约占用 4 个字节，而没有任何数据点的时间序列大约占用 1Kb。因此，即使没有任何数据点的时间序列也会占用空间并且可能占用内存。您可以通过比较 prod 和 stage 中的时间序列数量来排除这个原因：count({__name__=~".+"})。如果 prod 中的时间序列明显更多，您必须找出原因，并可能进一步减少数量。
PromQL 查询将太多数据加载到内存中。如果您的查询请求长时间或大量时间序列，也可能是原因，因为 prometheus 会尝试将请求的数据加载到内存中。由于 OOM 不断重现，您可以通过阻止对 prometheus 的所有查询来测试此假设，看看它是否仍然会达到 OOM。可能值得一看查询日志也。
节点内存不足。可能只是其他容器消耗了节点上的内存，而 prometheus 被杀死，因为它的内存较低服务质量。只需确保 prometheus 符合保证的 QoS 即可。

Question 2

导致我出现问题的原因是 keycloak 命名空间中的 keycloak 部署出现故障。旧的 keycloak 设置创建了大量副本集（约 36000 个），这导致 Prom 中与副本集相关的查询基数很高。

问题不在于暂存，因为暂存没有完全反映该配置。

我已经尝试对 kube-state-metrics 进行以下重新标记，在提取之前删除查询：

   - regex: '(kube_replicaset_status_observed_generation|kube_replicaset_status_replicas|kube_replicaset_labels|kube_replicaset_created|kube_replicaset_annotations|kube_replicaset_status_ready_replicas|kube_replicaset_spec_replicas|kube_replicaset_owner|kube_replicaset_status_fully_labeled_replicas|kube_replicaset_metadata_generation)'
    action: drop
    sourceLabels: [__name__]

但事实证明它过于保守。添加后：

- regex: 'keycloak'
action: drop
sourceLabels: [namespace]

我的实例再次变得稳定。

Answer