在 solaris 中,如何监控和自动响应关键事件

在 solaris 中,如何监控和自动响应关键事件

我有一个网站,有时会出现故障。它在 joyent 上的 open solaris 中运行。

我有一个监控服务,当网站瘫痪时它会提醒我,但是,我想要一种方法来放置一个“内部”工具来告诉我为什么会发生这种情况。

是因为 CPU 太高吗?不是内存吗?哪个进程失败了?可以回溯吗?

一切都在 Solaris 服务管理工具上运行。Web 服务器是 cherokee,数据库是 mysql,语言是 python/django。

我想要最简单的设置来监控和自动响应,即:在发生故障时重新启动 Web 服务器或 django 进程。

我更喜欢低开销的工具。我不需要某些工具所具有的花哨监控,不需要 ned 图表或短信警报。只需知道什么失败了,如果可能的话重新启动它(可能最多 n 次),并在检查时在某处记录日志。

答案1

您还可以选择使用 Nodefly、NewRelic、Pagerduty、Pingdom 或 nagios、Munin 或 zabbix 中的任何一个来实现额外的监控。

你有一个很多可用的选择。

答案2

/var/svc/log 中的日志可以满足您的所有需求。

这些是 SMF 在后台对您的系统执行的所有操作的日志。

提取‘有趣’的数据留给读者作为练习。

答案3

查看 collectd。我已经让它在 illumos/smartos 上进行编译。另外:

https://github.com/gflarity/nervoushttps://github.com/gflarity/response

相关内容