alerts

如何使用基于日志的指标针对同一事件发送警报
alerts

如何使用基于日志的指标针对同一事件发送警报

在 GCP 上,我们创建了各种基于日志的指标,我们基本上是在寻找带有一些关键字的日志条目,例如“错误”、“警告”等…… 我们还根据这些指标创建了警报。 大多数日志来自类似 cron 的应用程序。 但是,当 GCP 创建事件时,它不允许手动关闭它。根据文档,事件将在 7 天左右后自行关闭。GCP 仅在事件第一次发生时发送警报。因此,由 cron 生成的后续事件(例如每小时)将被视为现有事件,并且不会发送警报。 有没有办法配置 GCP 监控和警报,以便在每次发生同一事件时发送警报? ...

Admin

当服务器宕机时如何设置自动呼叫?
alerts

当服务器宕机时如何设置自动呼叫?

有没有一种服务打电话给你(不仅仅是短信)当你的服务器宕机时? 我们正在使用 Pingdom 发送警报,但它只通过短信发送警报,有时我们会错过。 ...

Admin

文件移动监控和警报
alerts

文件移动监控和警报

我们有一些通过文件交换与其他应用程序集成的应用程序。我们需要能够在以下情况下收到通知: 文件在某个文件夹中不断累积,达到了定义的累积文件数量; 文件存在于文件夹中,且未被应用程序占用超过指定的分钟数; 文件夹处于空状态且在指定的分钟数内没有任何文件移动; 有没有适用于 Windows 的工具可以让我针对这些事件设置电子邮件警报?最好是免费的 :) 我相信这可能是一个愚蠢的问题,但我发誓我尝试用谷歌搜索了两天,但我只找到了错误的工具,或者太难学的工具。 提前致谢。 干杯, 乔纳森·卡里霍 ...

Admin

Grafana Loki,AlertManager-无法读取规则目录,打开/tmp/loki/rules/fake:没有这样的文件或目录
alerts

Grafana Loki,AlertManager-无法读取规则目录,打开/tmp/loki/rules/fake:没有这样的文件或目录

我已经在本地机器上的 k3d 集群上使用 Helm 图表部署了 promtail、Grafana、Loki 和 AlertManager。我希望在 Loki 中设置一些规则,这样如果发生某些事情,AlertManager 应该得到通知。现在我只尝试了一些简单的规则,只是为了检查它是否有效。 我的 Loki 版本:{"version":"2.6.1","revision":"6bd05c9a4","branch":"HEAD","buildUser":"root@ea1e89b8da02","buildDate":"2022-07-18T08:49:07Z",...

Admin

根据严重性禁用 Prometheus Alertmanager 的电子邮件
alerts

根据严重性禁用 Prometheus Alertmanager 的电子邮件

我们正在使用 Prometheus、Alertmanager 和 Grafana 的组合来监控 HPC 计算集群。在我们的机器上,SWAP 内存填满到极限之类的事情经常发生,虽然info在 Grafana Alerts 仪表板中查看相应级别的警报很有用,但我们最好不要发送相应的电子邮件。 有没有办法静音/禁用所有info在alertmanager.yml配置文件中具有严重性的警报电子邮件? 所有警报的定义都与此类似(根据https://awesome-prometheus-alerts.grep.to/rules.html): - alert: Host...

Admin

具有匹配标题的电子邮件的 Office365 警报策略
alerts

具有匹配标题的电子邮件的 Office365 警报策略

是否可以在 Office365 中配置一个警报策略,当收到包含特定标题和值对的电子邮件时会触发该策略? 我找不到任何表明这是可能的迹象,即使使用 Powershell Net-ProtectionAlert cmdlet。 提前致谢 ...

Admin

来源
alerts

来源

我如何监控我网站的 tor 隐藏服务端点的正常运行时间,以便在它离线时立即收到通知?精美的月度/年度正常运行时间报告可获得加分。 我希望我的网站可以通过 Tor 洋葱服务访问,这样 Tor 用户就可以安全地访问它。我可能很少通过其.onion地址访问我的网站,因此安装监控软件尤为重要,以便在网站无法通过 Tor 访问时通知我。 我的整个基础设施仅由 1 台服务器组成。让监控软件运行在它所监控的同一台服务器上是没有意义的,所以我目前使用 SaaS 服务来监控我的网站(pingdom/statuscake/cula...

Admin

每周自动检查主页中是否仍然存在脚本
alerts

每周自动检查主页中是否仍然存在脚本

我与几家酒店合作,他们在网站上安装了一个脚本(每家酒店都有自己的脚本),以添加我公司提供的一些工具。有时他们会更改主页或预订引擎,却没有意识到必须重新安装脚本,因此我们最终会丢失数天的数据,直到有人通过检查页面意识到脚本不再存在。 我想知道是否有办法设置每周警报或类似的东西,以通知我所有这些脚本是否仍然存在或是否丢失。这可能吗?我的 IT 知识非常非常基础,所以我不知道我问的问题是否愚蠢或不可能,请告诉我! 谢谢 ...

Admin

ETL 的双因素监控
alerts

ETL 的双因素监控

这个名称类似于 2FA 安全模式,源于这样一种场景:我想定期确保某些 ETL 触发器已到位。 我不仅想通过警报监控某个程序是否有效/失败(我已经实施了警报)。还想使用第二个基础设施检查触发器是否到位。这样,如果我没有收到错误,我就可以确定一切都正常了。 假设您有一个计划每月运行的 ETL。您的项目要求是每月运行此 ETL。您将其设置为每月运行,并且一段时间内一切都正常。但是一个季度后,有人进行了一些配置更改,并且不再触发 ETL。它显然不会引发任何新错误。我需要一个环境之外的工具来监控并执行要求。 是否存在类似上述的工具/方法/技术? ...

Admin

在高负载下,我的服务器机房的温差是否太大
alerts

在高负载下,我的服务器机房的温差是否太大

我的服务器机房有两个温度读数,一个测量环境温度,另一个测量服务器集群的排气温度。我最近注意到这两个温度之间的差异可以达到 30 华氏度左右,这个差异是否太大了? 我们的服务器机房内有一个大型服务器集群,大约有十几个机架式服务器,并由这个空调机组,服务器和照明的最大总输出估计为 121110btu。房间里没有排气装置,我原本以为增加排气装置会有帮助,但正在寻求第二种意见。 温度读数图像: 使用率低 高使用率 ...

Admin

如何配置 Prometheus 以获取聚合指标?
alerts

如何配置 Prometheus 以获取聚合指标?

我有五个与 Prometheus 聚合指标接收配置相关的问题。 我的系统中有一些不变量: 需要检测的 Python 服务器代码 需要获取警报的聚合指标的 Prometheus 服务 中间的一切目前正在设计中。我读了一些关于它应该如何运作的资料,但一直绕圈子。 推送网关明确地不支持聚合: Pushgateway 显然不是一个聚合器或分布式计数器而是一个指标缓存。它没有统计信息语义。推送的指标与永久运行程序中呈现的抓取指标完全相同。如果您需要分布式计数,您可以将实际的 statsd 与Prometheus statsd 导出器或查看Weave...

Admin

New Relic lambda 警报未触发
alerts

New Relic lambda 警报未触发

我们正在使用适用于 New Relic 的现成 AWS 集成。我们有一个警报,其临界阈值在 lambda 错误时触发,但警报未发送到警报通道。 ...

Admin

适用于 Windows 服务的 Azure Monitor 警报
alerts

适用于 Windows 服务的 Azure Monitor 警报

是否可以为在云服务上运行的 Windows 服务添加 Azure Monitor 警报? 我们有一个在云服务上运行的 Web 应用程序,该应用程序取决于我们在实例虚拟机上安装的服务,我们需要在服务停止时收到通知。 我们过去常常使用 WhatsUp 监控这些类型的事件,但不确定在 Azure 上处理它的最佳方法是什么。 ...

Admin

验证内部 NTP 服务器是否发送正确的时间?
alerts

验证内部 NTP 服务器是否发送正确的时间?

我有两个正在运行的 NTP 层 3 服务器,并且想要创建一个简单的检查,以便我可以判断其中一个服务器是否出现时间漂移,并提醒它未与公共层 2 服务器正确同步。 我的第一个想法是从多个 stratum 2 服务器获取时间,并将该时间与我的 ntp 服务器发送的时间进行比较。然后,如果漂移超过 X delta,则发出警报。 是否有更标准的方式或更好的方法来验证 NTP 服务器是否发送正确的时间? ...

Admin