alertmanager

Prometheus Server Pod突然崩溃(意外故障地址0x7f911b1795d4)
alertmanager

Prometheus Server Pod突然崩溃(意外故障地址0x7f911b1795d4)

随着流量的增加,Prometheus 服务器 pod 会重新启动并出现以下错误堆栈。当系统有实时流量时会发生这种情况。但无法通过负载测试重现。 Grafana 仪表板用于可视化 Prometheus 服务器数据。 unexpected fault address 0x7f911b1795d4 fatal error: fault [signal SIGBUS: bus error code=0x2 addr=0x7f911b1795d4 pc=0x23c5989] {log} goroutine 17680065 [running]: runtime.thr...

Admin

为 PagerDuty 配置 alertmanager 配置时的 prometheus-operator
alertmanager

为 PagerDuty 配置 alertmanager 配置时的 prometheus-operator

有下一个问题:尝试通过 CRD 设置警报管理器配置时,pod 上的配置错误。问题如下: - routing_key: | ***** 毕竟 CD 使用的是多行字符串类型,它会导致配置崩溃 - alertmanager 无法将其理解为 pagerduty 配置,并且不使用默认模板进行自定义配置。它没有为 PD 生成预期的 json,并且 PD 返回状态代码 400。预期配置如下所示: - routing_key: **** 但只有当我使用 CRD 时才会这样。如果我不使用 CRD(在全局值中)进行设置,它就可以正常工作。 更多信息: 配置.ya...

Admin

如何删除通知中有关旧触发警报的信息?
alertmanager

如何删除通知中有关旧触发警报的信息?

当触发 1 个警报时,AlertManager 会发送通知,然后触发或解决第 2 个警报时,AM 会发送包含有关 2 个警报的信息的通知。如何在通知中删除有关第 1 个警报的信息?我为 AM 配置设置了“repeat_interval: 24h”,但这没有帮助。我使用 Amazon Prometheus。 ...

Admin

如何删除警报模板中的标签?
alertmanager

如何删除警报模板中的标签?

我找到了 Prometheus Alert Manager 的警报模板,但我在通知中收到许多不必要的标签。如何删除模板中的标签?此代码负责标签(见下文)。我对 Go 模板系统和 Json 了解不多,所以我寻求帮助。 {{ if gt (len $alerts.Labels.SortedPairs) 0 -}}, "labels": {{ "{" }} {{ range $index, $label := $alerts.Labels.SortedPairs }} {{ if $index }}, ...

Admin

Grafana Loki,AlertManager-无法读取规则目录,打开/tmp/loki/rules/fake:没有这样的文件或目录
alertmanager

Grafana Loki,AlertManager-无法读取规则目录,打开/tmp/loki/rules/fake:没有这样的文件或目录

我已经在本地机器上的 k3d 集群上使用 Helm 图表部署了 promtail、Grafana、Loki 和 AlertManager。我希望在 Loki 中设置一些规则,这样如果发生某些事情,AlertManager 应该得到通知。现在我只尝试了一些简单的规则,只是为了检查它是否有效。 我的 Loki 版本:{"version":"2.6.1","revision":"6bd05c9a4","branch":"HEAD","buildUser":"root@ea1e89b8da02","buildDate":"2022-07-18T08:49:07Z",...

Admin

根据严重性禁用 Prometheus Alertmanager 的电子邮件
alertmanager

根据严重性禁用 Prometheus Alertmanager 的电子邮件

我们正在使用 Prometheus、Alertmanager 和 Grafana 的组合来监控 HPC 计算集群。在我们的机器上,SWAP 内存填满到极限之类的事情经常发生,虽然info在 Grafana Alerts 仪表板中查看相应级别的警报很有用,但我们最好不要发送相应的电子邮件。 有没有办法静音/禁用所有info在alertmanager.yml配置文件中具有严重性的警报电子邮件? 所有警报的定义都与此类似(根据https://awesome-prometheus-alerts.grep.to/rules.html): - alert: Host...

Admin

Alertmanager 电报配置 chat_id 并且无法解组错误
alertmanager

Alertmanager 电报配置 chat_id 并且无法解组错误

我正在尝试配置 alertmanager 以向我的电报组发送警报。按照我的配置: global: resolve_timeout: 5m route: group_by: - job group_interval: 5m group_wait: 30s receiver: "telegram" repeat_interval: 1d routes: - match: alertname: Watchdog receiver: "null" receivers: - name: "null" - name...

Admin

webhook MS Teams 与 Prometheus 集成 - 请求失败
alertmanager

webhook MS Teams 与 Prometheus 集成 - 请求失败

我正在努力将 Microsoft Teams/Prometheus 集成到 K8s 集群中。我使用 helm 启动了所有组件。我的 Prometheus 和 Alertmanager 正常工作。似乎一切正常。Prometheus 与 Alertmanager 通信。然后 prometheus-msteams 从 Alert Manager 接收 POST 警报,它应该将其发送到 Microsoft Teams 频道,但事实并非如此。 2022/03/01 06:49:38 [DEBUG] POST https://xxx.webhook.office.com...

Admin