alerting

如何在 Windows Server 2012 上设置磁盘故障的电子邮件警报?
alerting

如何在 Windows Server 2012 上设置磁盘故障的电子邮件警报?

我有一台 Windows 2012 服务器,其中设置了 3 个存储空间,每个存储空间包含一对 2TB 的镜像驱动器。 设置警报的最佳方法是什么,以便当物理磁盘出现故障时我收到警报? 理想情况下,我希望这些警报通过电子邮件发送到预定义的地址。 当前服务器设置如下: 英特尔酷睿 i7 2600k 3.4GHz 插槽 1155 8MB 缓存 Asrock H77 PRO4/MVP 插槽 1155 VGA DVI HDMI 7.1 声道音频 ATX 主板 16GB 内存 1 个 60GB SSD(操作系统) 6 x 2TB SATA III 7200 硬盘...

Admin

Windows 事件日志 - 电子邮件通知
alerting

Windows 事件日志 - 电子邮件通知

当特定服务的特定严重性事件到达 Windows 服务器事件日志时,是否有一种简单的方法可以发送电子邮件?这在 Windows Server 2003 上,如果有区别的话。 注意:我们确实对我工作场所的生产服务器进行了适当的监控和警报,但我们只是需要为开发中的这项服务提供快速解决方案。 ...

Admin

使用 CloudWatch 监控并发用户
alerting

使用 CloudWatch 监控并发用户

我正在寻找一种监控服务器中并发用户的好方法。服务器有一个 websocket 连接,因此很容易确定用户是否已连接。在研究了 CloudWatch 一段时间后,我有一个计划: 每分钟,服务器集群中的每台服务器都会发送当前连接到同一 CloudWatch 指标和命名空间的用户数量 最后,我可以使用 CloudWatch Sum 视图查看该时间段内的并发用户数 -假设我用1分钟的时间。我对 CloudWatch 的使用经验不多,这让我怀疑这是否是一种好方法。我知道,即使是图形可视化,CloudWatch 一次可以显示的信息量也是有限的。我还知道,如果我想查看更高的...

Admin

GCP:如何通过 GCP Cloud Console Android 应用进行“分页”?
alerting

GCP:如何通过 GCP Cloud Console Android 应用进行“分页”?

我正在使用 GCP,并已设置 GCP Cloud Console Android 来通知我错误和警报。但我的手机大部分时间都处于静音/振动状态,因此我错过了警报。有没有办法让 GCP Cloud Console Android 应用始终以最大音量通知我? (我之前使用过 PagerDuty。即使我的手机处于静音/振动状态,他们的 Android 应用程序也会响亮。我看到 GCP 有一个与 PagerDuty 集成的选项,但我想知道如果没有 PagerDuty 这样的外部工具,我是否可以实现我的目标。) ...

Admin

GCP 监控警报 - 您可以对度量属性取平均值吗?
alerting

GCP 监控警报 - 您可以对度量属性取平均值吗?

我们正在使用 Bluemedora BindPlane 将内部部署利用率指标发送到 GCP。 在这样做时,我们尝试创建一个 GCP 监控警报,如果服务器的 CPU 百分比达到并保持在 95% 以上 15 分钟,该警报就会提醒我们。 但我们会收到每个核心的警报事件。 是否有人足够熟悉 MQL,以便他们可以提供如何重组下面的内容,以便获得跨核心的平均值,而不是每个核心的事件? fetch generic_node | metric 'external.googleapis.com/bluemedora/linux_host/cpu/utilization' | ...

Admin

使用 iLO 的 HPE ProLiant 服务器发送有关 RAID 硬盘错误的电子邮件警报
alerting

使用 iLO 的 HPE ProLiant 服务器发送有关 RAID 硬盘错误的电子邮件警报

我正在寻找一种方法来从运行免费版 ESXi 的 HPE ProLiant 服务器获取有关可能的 RAID 硬盘故障的电子邮件警报。 是否有人以某种方式使用 iLO 高级许可证甚至标准版本成功实现此目的? 我认为“基于电子邮件的警报”很可能是下表中提到的高级许可证中包含的功能,可用于将此类警报直接发送到电子邮件。 https://support.hpe.com/hpesc/public/docDisplay?docId=emr_na-c05269613 然而,如果有人可以确认这些类型的警报是否需要高级许可证,或者是否有办法使用未经许可的 iLO 或标准版本进行...

Admin

Blackbox-exporter 模块标题
alerting

Blackbox-exporter 模块标题

如何在 blackbox.yml 中的模块中提供标题。 module: prober: http http: headers: Authorization : "----" 这将返回错误解析配置文件:yaml:解组错误 ...

Admin

当私钥从磁盘读取时发送电子邮件警报(蜜罐、审计)
alerting

当私钥从磁盘读取时发送电子邮件警报(蜜罐、审计)

我希望每次有人在 Debian Linux 上读取我的私钥内容时立即收到警报。我该怎么做? 我的服务器磁盘上存储了一个 RSA 私钥,位于以下位置: /etc/ssl/private/super-secret.key 它只能由 root 读取,但我仍然希望记录每次此密钥被人员或进程读取的日志,并存储该读取事件的上下文,以用于警报和审计目的 当从磁盘读取非常敏感的文件时,如何设置立即警报? ...

Admin

Performance Co-Pilot 可以作为独立的 NMS 解决方案吗?
alerting

Performance Co-Pilot 可以作为独立的 NMS 解决方案吗?

我想知道 Performance Co-Pilot (PCP) 是否可以设置为具有 NMS 应用程序(即 Nagios 或 Zabbix)的所有功能。我使用它从主机中提取指标并在仪表板上绘制值,但我想知道如何使用它来监控数百台服务器并检测故障。PCP 文档描述了所有模块和守护进程,但我找不到太多关于如何将它们协同工作的信息。有性能指标推理引擎 (PMIE),它可以评估逻辑表达式并发出警报,或者 PCP 管理器 (pmmgr) 可用于从多个主机收集数据。所以如果我想使用 PMIE 进行故障检测和警报,它应该在每个受监控的主机上运行还是在中央 NMS 服务器上运...

Admin

有哪些好的模式可以清除嘈杂的日志警报
alerting

有哪些好的模式可以清除嘈杂的日志警报

除了传统的应用程序日志记录(例如 Elasticsearch)之外,组织可能还拥有警报系统”哨兵“它接收应用程序通过 HTTP 发送的日志消息/异常事件,并通知开发人员潜在的问题。 假设 Sentry 现在不仅包含“可操作”事件(例如,连接到数据库时出错。Devops 应该进行调查),而且还被大量“不可操作”事件所污染(例如,无法处理用户输入 - 期望用户再次尝试,而 DevOps 无需执行任何操作)。 有哪些选项可以把一个充满好坏事件数据的系统转变为一个只有好数据的干净系统,从而使警报再次变得有意义并且不会被忽略? 示例:1)逐步处理每个事件,从最容...

Admin

使用从传感器传输到云端的数据创建自定义警报策略
alerting

使用从传感器传输到云端的数据创建自定义警报策略

我正在寻找有关如何使用从传感器设备获取并上传到我的 Google 云项目的数据作为 Stackdriver 监控警报策略的指标的信息和帮助。 目前,我和我的团队正在使用 BigQuery 来查询来自传感器设备的数据(如果有帮助的话)。 我的主要目标是监控来自我们设备的数据,如果某个值或一组值对于任意 Stackdriver 监控来说仍然太高,就会向注册的电话和电子邮件发送事件警报。 无可否认,我对 GCP 和 Stackdriver 还很陌生,因此尽量用外行人能理解的语言来回答。 ...

Admin

Jenkins通过解析日志构建邮件通知
alerting

Jenkins通过解析日志构建邮件通知

我正在使用 Jenkins 在多台服务器上部署。有 4 个后端服务器正在运行。我deploy.sh在每个服务器中调用了一个脚本。在部署时,Jenkins 创建一个 ssh 会话并deploy.sh在每个服务器中逐个运行该脚本。但是,有时它会在构建控制台日志中显示"Errno : can not allocate memory"几台服务器的错误,然后移动到下一台服务器。我正在寻找一个解决方案,只要 Jenkins 日志中出现“错误”关键字,它就会向我发送电子邮件。 我找到了这个链接:-https://wiki.jenkins.io/display/JENKI...

Admin

Prometheus 警报是否有可能计算另一种警报状态?
alerting

Prometheus 警报是否有可能计算另一种警报状态?

我想使用 IF 创建一个警报,其中包含依赖于另一个警报状态的表达式。这有可能吗?我知道使用 alermanager 可以抑制警报,但在某些情况下我根本不需要触发某些警报。Prometheus v.1.7.2 ...

Admin

Supermicro SYS-5019S-M 和 IPMI 温度阈值
alerting

Supermicro SYS-5019S-M 和 IPMI 温度阈值

我有一台 Supermicro SYS-5019S-M 服务器,配置为当 IPMI 检测到温度超过某个定义的阈值时发送 SMTP 警报(电子邮件)。 然而,似乎至少对于某些组件来说,阈值太高了:例如,“系统温度”和“外围设备温度”的临界限值都设置为 85° C,这对于硬盘来说太高了。 我有两个问题: 为什么门槛设得这么高?有什么特别的原因吗? 我如何通过集成的 Web IPMI 接口和/或 Supermicro IPMIView 来更改它们(注意:我知道如何通过 Linux 上的 ipmitools 来更改它们。我只是想知道是否存在特定的 Sup...

Admin

设置 Nagios 在一段时间内超过阈值时发出警报?
alerting

设置 Nagios 在一段时间内超过阈值时发出警报?

我有一台服务器,里面有一个我想监控的内存值。如果该值在一小时内超过一定量,我希望它发送警报,但在此之前我希望它忽略插件警报。 是否只有当插件检测到问题超过 X 分钟时,Nagios 才会发出警报?(或者只有当从插件收集到 X 个警告时才发出警报?) ...

Admin