Zabbix“应用程序”监控 - 如何检测“挂起”的冻结应用程序

Zabbix“应用程序”监控 - 如何检测“挂起”的冻结应用程序

我在 Ubuntu 上运行着 Zabbix 服务器……我在 Windows 服务器上安装了代理。Template_Windows 运行起来很棒,它为我提供了各种统计数据,我很乐意使用它……

问题是我试图监控一个应用程序。不是服务或网站。是一个应用程序。

我有一个应用程序经常意外崩溃。我希望能够收到“程序未响应”警报(然后将其发送到电子邮件/短信/报告中)。

我有另一台服务器上有一个应用程序,我想监控其统计数据(CPU 使用率等)。

我看到了如何监控服务...但这些不是服务。它们是“用户”登录时运行的应用程序。我找不到关于如何设置此类服务的良好教程。

编辑:做进一步的研究和修补......问题变成了:无论使用什么方法,我如何检测应用程序是否冻结/挂起/无响应?

  • 使用 Proc_Counter 并检测是否有零活动...15 秒?
  • 使用 perf_info 指标?我似乎没有看到任何表明进程挂起的信息,但我能找到的唯一手册页是 1.4,而当前的 Zabbix 是 1.8.4。
  • VBScript、命令行测试等,可以监视/测试应用程序,并且可以通过 UserParameters 跟踪其输出?

我似乎无法让某些东西正常工作。一旦我可以验证挂起的进程,我就可以响应任务终止/重新启动、向责任方发送电子邮件等...但我似乎找不到一种优雅的方法来检测挂起的进程/应用程序。

答案1

我花了很长时间才开始simple-checks工作。我还没有尝试过应用程序。

这里的第二篇文章有帮助吗?http://www.zabbix.com/forum/showthread.php?t=18206

答案2

你可以朝多个方向走。

可能最简单的两种方法是构建一个用户参数,该参数在客户端系统上运行脚本来检查应用程序的运行状况。但是,如果运行时间超过 30 秒,那么最好的方法可能是设置一个脚本,然后使用 zabbix-sender 将运行状况数据推送到 Zabbix。另一方面,您可以做很多事情,可能最简单的方法之一就是触发 nodata() 和 last()=errorvalue 的组合。如果您使用 cron 发送数据,nodata 检查效果最好,因为检查的时间不受 Zabbix 控制。

Zabbix 论坛上已经有多次关于此问题的讨论。

http://www.zabbix.com/forum

相关内容