如何使用 Nagios 处理事后分析/事件报告?

如何使用 Nagios 处理事后分析/事件报告?

我刚开始使用 Nagios,我喜欢我的团队能够确认问题,但我还没有找到一种方法来记录用于解决问题的解决方案。是否有一种工具可以记录 Nagios 警报并提供一种方法来完成事后分析和记录解决方案,以便当有人遇到类似问题时,他们可以参考记录的数据?

答案1

老实说,我认为在错误时间尝试捕获这些信息是没有用的。您压力很大,可能仍然昏昏欲睡,至少您会处于“战斗或逃跑”模式,这不利于编写良好的文档。Nagios 已经能够在服务中记录快速笔记(作为确认的一部分,或作为您附加到服务/主机的单独笔记);这些可以作为您在紧急情况发生后应该在闲暇时进行的事后分析的一部分,然后合并到更结构化、更有用、写得更好的文档中,该文档在 wiki 中捕获并从 Nagios 中的服务本身链接到该文档(通过现场notes_url)。

答案2

看一眼事件处理器你所要做的就是编写一个脚本来处理事件并将你的解决方案记录到问题跟踪系统中(我喜欢Redmine)。

答案3

在我工作的地方我们的做法恰恰相反。

我们使用一个名为“TopDesk”的票务系统(其实并不重要)。每当 Icinga(nagios-fork)中出现警报时,它都会通过 HTTP 请求向 TopDesk 服务器创建一张票。

因此,我认为让 nagios 通过邮件、短信和票务系统发送警告/错误然后使用它来跟踪所采取的行动更容易。

相关内容