设计监控系统的可靠流程是什么？

Question

为了扩展我的评论，并希望给你一点指导，你可能想从中得到什么Kyle 的博客文章（还有这个（均在我的监控系统设计人员必读参考书目中）的共同点是，故障通常不是指一件事出错，而是指 10 件事出错。一个
好的监控系统的工作就是在这 10 件事真正破坏您的服务并影响面向客户的内容之前发现它们。

下面的介绍绝不是详尽或完整的，但与我处理监控设置的方法非常相似并且应该可以引导您朝着正确的方向前进：

要弄清楚您想要监控什么，首先需要考虑什么可能导致故障。
1. 有些事情很常见，
  很多都可以从 Kyle 的帖子中抄袭，所以我就不一一列举了，但如果你想收到通知预故障条件-例如一RAID5 中的驱动器发生故障 —— 立即更换它并避免以后停机。
2. 其他则根据您的基础设施/设计而有所不同，并包括对其他服务的依赖
  如果你正在运行一个由数据库支持的网站，而数据库瘫痪了，你的网站将无法运行
查看依赖关系并构建依赖关系树。
（在数据中心中，您可以根据需要进行管理：在我上一份工作中，我们是一家托管公司，我们的监控系统与我们的 UPS、发电机和冷却系统进行通信，以让我们了解它们的最新状态）
掌握了所有这些信息，您就可以决定什么可以主动监控，什么只能被动响应
（例如，“网线被拔出”会导致任何服务器瘫痪，但是否值得监控交换机端口的状态，或者您是否希望出现“它瘫痪了，我必须去看看”的情况？）。

剩下的任务就是选择监控软件来实现您的愿景。此选择应基于哪个软件包可以让您监控所有（或大部分）理想列表，并且实际会考虑软件包之间的价格差异。

Answer 1

为了扩展我的评论，并希望给你一点指导，你可能想从中得到什么Kyle 的博客文章（还有这个（均在我的监控系统设计人员必读参考书目中）的共同点是，故障通常不是指一件事出错，而是指 10 件事出错。一个
好的监控系统的工作就是在这 10 件事真正破坏您的服务并影响面向客户的内容之前发现它们。

下面的介绍绝不是详尽或完整的，但与我处理监控设置的方法非常相似并且应该可以引导您朝着正确的方向前进：

要弄清楚您想要监控什么，首先需要考虑什么可能导致故障。
1. 有些事情很常见，
  很多都可以从 Kyle 的帖子中抄袭，所以我就不一一列举了，但如果你想收到通知预故障条件-例如一RAID5 中的驱动器发生故障 —— 立即更换它并避免以后停机。
2. 其他则根据您的基础设施/设计而有所不同，并包括对其他服务的依赖
  如果你正在运行一个由数据库支持的网站，而数据库瘫痪了，你的网站将无法运行
查看依赖关系并构建依赖关系树。
（在数据中心中，您可以根据需要进行管理：在我上一份工作中，我们是一家托管公司，我们的监控系统与我们的 UPS、发电机和冷却系统进行通信，以让我们了解它们的最新状态）
掌握了所有这些信息，您就可以决定什么可以主动监控，什么只能被动响应
（例如，“网线被拔出”会导致任何服务器瘫痪，但是否值得监控交换机端口的状态，或者您是否希望出现“它瘫痪了，我必须去看看”的情况？）。

剩下的任务就是选择监控软件来实现您的愿景。此选择应基于哪个软件包可以让您监控所有（或大部分）理想列表，并且实际会考虑软件包之间的价格差异。

相关内容