使用 Nagios 事件处理程序使系统恢复正确状态

使用 Nagios 事件处理程序使系统恢复正确状态

我读过有关配置管理/配置工具(如 Ansible 和 SaltStack)的文章。这些工具听起来很不错,我打算大量使用其中一种(尚未决定使用哪种,但我更倾向于使用 Ansible)。理想情况下,我希望使用其中一种来控制系统中配置和命令执行的所有方面。即:从初始引导、临时命令,到系统范围的异常发生时。

为此,我似乎可以使用 Nagios 事件处理程序(正确设置时)来依次执行配置的 ansible playbook(或 saltstack 等效程序)以尝试使系统恢复到正确状态。

这种设置经常使用吗?有什么理由认为这不是一个好主意吗?

我之所以问这个问题,是因为对我来说,将所有配置放在 1 个工具(ansible 或 saltstack)下似乎合乎逻辑/方便,但关于使用 Nagios(或类似工具)和 Ansible(或类似工具)组合的信息似乎真的很少/不存在。

答案1

这是一个合理的想法,但你必须非常注意确保您的自动化操作精确且准确。

您需要绝对确定您所遇到的故障状态可以通过这些自动操作来重置(准确)来解决。

您还需要确保您的操作完全幂等,以防出现问题并触发错误的重新配置服务。(精确)。

总的来说,这不是一个坏主意,但与状态混乱有关的问题最容易让你陷入困境。根据我的经验,它们甚至困扰着我,我自动重启了某些东西,却没有意识到它卡住了(或正在运行,取决于你的观点)。

相关内容