Prometheus 未连接到 GKE 中的警报管理器

Question 1

我意识到，即使服务还在，但 alertmanager pod 却不见了。我发现，我可以通过卸载 prometheus 堆栈，然后使用默认值重新安装，然后使用我自己的值升级来恢复 pod。

现在 PrometheusNotConnectedToAlertmanagers 警报已停止触发，但我仍然没有收到电子邮件。现在我可以通过入口访问警报管理器，并看到我放入 Helm 值文件中的配置没有传递到警报管理器 - 它仍然有默认配置。

我发现我此处描述的问题并检查 kube-prometheus-stack 操作员 pod 中的日志确认了这一点。我需要在我的警报管理器接收器中有一个“空”接收器（我已将其删除）

Answer

我意识到，即使服务还在，但 alertmanager pod 却不见了。我发现，我可以通过卸载 prometheus 堆栈，然后使用默认值重新安装，然后使用我自己的值升级来恢复 pod。

现在 PrometheusNotConnectedToAlertmanagers 警报已停止触发，但我仍然没有收到电子邮件。现在我可以通过入口访问警报管理器，并看到我放入 Helm 值文件中的配置没有传递到警报管理器 - 它仍然有默认配置。

我发现我此处描述的问题并检查 kube-prometheus-stack 操作员 pod 中的日志确认了这一点。我需要在我的警报管理器接收器中有一个“空”接收器（我已将其删除）

Question 2

如果这对 Google 的任何人有帮助，我在 pod 中看到了错误（我不记得是 Prometheus 还是 Prometheus-operator），SMTP 主机中缺少端口，然后意识到我在设置警报管理器时忘记在 SMTP 配置中指定端口。我正在使用 OpenShift 4.7（如果这很重要的话）

Answer

如果这对 Google 的任何人有帮助，我在 pod 中看到了错误（我不记得是 Prometheus 还是 Prometheus-operator），SMTP 主机中缺少端口，然后意识到我在设置警报管理器时忘记在 SMTP 配置中指定端口。我正在使用 OpenShift 4.7（如果这很重要的话）

相关内容