您建议使用哪些工具来管理正在运行的守护进程?其中包括:
- 负载监控:当守护进程拖慢整个服务器时,重新调整守护进程
- 保持活动:当它无法正常工作时重新启动它。也许,连接检查?
- 有任何高级日志处理/轮换/解析工具吗?
- 方便的错误通知:电子邮件、icq、jabber……
- 实时监控:munin || nagios,当然!:) 也许还有其他足够好的东西可以用?
- ...还有其他建议吗?
答案1
负载监控:当守护进程拖慢整个服务器时,重新调整守护进程 保持活动:当守护进程无法运行时,重新启动它。也许,连接检查?
Nagios 可以完成这两项任务事件处理器但是对于 renice,我可能更愿意让它单独运行,因为如果服务器负载过大,通过 ssh 之类的工具进行的检查可能会超时。理想情况下,守护进程有自己的控件来防止这种情况发生,即“最大连接数”。
Any advanced log processing/rotation/parsing tools?
我喜欢用 logrotate 进行日志轮换,它非常标准。对于处理,如果您负担得起,或者不需要付费版本提供的功能,我喜欢用 Splunk。
Handy error notifications: e-mail, icq, jabber, ...
添加到您的列表中,很多人都喜欢文本(SMS)消息。
答案2
也请查看 Cfengine。我们已经让它在从 Linux 到 AIX 和 Windows 的所有系统上运行。它是开源的,但有一个商业版本可以为真正的轻量级监控做一些额外的技巧。
Splunk 还可以,但是如果你学习一点正则表达式魔法,就没有什么是你做不到的。