地理分布、容错和“智能”应用程序/主机监控系统

Question 1

实际上不是一个答案，但是有一些指示：

一定要看一下关于nagios@高盛. 他们面临您提到的问题 - 冗余、可扩展性：数千台主机，还有自动配置生成。
我有冗余的 nagios 设置，但规模要小得多 - 总共 80 台服务器、~1k 个服务。一个专用的主服务器，一个从属服务器，每天几次定期从主服务器提取配置。两台服务器都涵盖对相同机器的监控，它们彼此之间进行健康状况交叉检查。我主要将 nagios 用作调用自定义产品特定检查的框架[一堆 cron 作业执行脚本进行“人工流控制”，结果记录到 sql，nrpe 插件检查过去 x 分钟内执行成功/失败的情况]。一切都运行良好。
你的仲裁逻辑听起来不错 - 有点类似于我的‘人工流’ - 基本上继续，实现你自己;-]。并让 nrpe 检查某种标志[或带有时间戳状态的 sql db]事情进展如何。
您可能需要构建一些层次结构来进行扩展 - 您将有一些节点来收集其他节点的概览，请从第一点查看演示。在监控服务数量较多的情况下，默认的 nagios 对每个单独检查进行分叉是过度的。

回答一些问题：

在我的案例中，监控的环境是典型的主从设置[主 SQL 或应用服务器 + 热备用]，没有主-主。
我的设置涉及“人工过滤因素” - 解析器组是短信通知的“备份”。已经有一组付费技术人员，由于其他原因，他们每周 5 天、每天 24 小时轮班，他们得到“检查 nagios 邮件”作为额外任务，不会给他们带来太大负担。他们负责确保数据库管理员 / IT 操作 / 应用程序管理员能够真正起床并解决问题 ;-]
我听到了很多关于扎比克斯- 用于警报和绘制趋势，但从未使用过。对我来说穆宁成功的秘诀是，我已经破解了简单的 nagios 插件，检查 munin 服务器列表中是否有“任何红色” [严重] 颜色 - 只是一个额外的检查。您也可以从 munin rrd 文件中读取值，以减少发送到受监控机器的查询数量。

Answer

实际上不是一个答案，但是有一些指示：

一定要看一下关于nagios@高盛. 他们面临您提到的问题 - 冗余、可扩展性：数千台主机，还有自动配置生成。
我有冗余的 nagios 设置，但规模要小得多 - 总共 80 台服务器、~1k 个服务。一个专用的主服务器，一个从属服务器，每天几次定期从主服务器提取配置。两台服务器都涵盖对相同机器的监控，它们彼此之间进行健康状况交叉检查。我主要将 nagios 用作调用自定义产品特定检查的框架[一堆 cron 作业执行脚本进行“人工流控制”，结果记录到 sql，nrpe 插件检查过去 x 分钟内执行成功/失败的情况]。一切都运行良好。
你的仲裁逻辑听起来不错 - 有点类似于我的‘人工流’ - 基本上继续，实现你自己;-]。并让 nrpe 检查某种标志[或带有时间戳状态的 sql db]事情进展如何。
您可能需要构建一些层次结构来进行扩展 - 您将有一些节点来收集其他节点的概览，请从第一点查看演示。在监控服务数量较多的情况下，默认的 nagios 对每个单独检查进行分叉是过度的。

回答一些问题：

在我的案例中，监控的环境是典型的主从设置[主 SQL 或应用服务器 + 热备用]，没有主-主。
我的设置涉及“人工过滤因素” - 解析器组是短信通知的“备份”。已经有一组付费技术人员，由于其他原因，他们每周 5 天、每天 24 小时轮班，他们得到“检查 nagios 邮件”作为额外任务，不会给他们带来太大负担。他们负责确保数据库管理员 / IT 操作 / 应用程序管理员能够真正起床并解决问题 ;-]
我听到了很多关于扎比克斯- 用于警报和绘制趋势，但从未使用过。对我来说穆宁成功的秘诀是，我已经破解了简单的 nagios 插件，检查 munin 服务器列表中是否有“任何红色” [严重] 颜色 - 只是一个额外的检查。您也可以从 munin rrd 文件中读取值，以减少发送到受监控机器的查询数量。

Question 2

您所要求的听起来很像 Shinken 为 Nagios 所做的事情。

Shinken 是 Nagios 的重写版。

这值得我们深思。

干杯

Answer

您所要求的听起来很像 Shinken 为 Nagios 所做的事情。

Shinken 是 Nagios 的重写版。

这值得我们深思。

干杯

相关内容