我有一个需要监控的内部实验室,但我想确保我监控的是正确的东西(这是我第一次尝试运营管理)。目前我需要监控以下服务器:
- Web 服务器 (IIS)
- 数据库服务器(SQL - OLTP)
- 数据仓库服务器(SQL - OLAP)
加上在负载测试期间实际产生负载的 3 台服务器。
目前我只是监控磁盘空间使用情况,如果任何逻辑磁盘的可用空间低于 10%,我就会收到警报。这些机器都不是生产用的,它们都在测试实验室里,所以不需要 24/7 的正常运行时间,我们也没有专人随时待命修理机器。我们主要只是想找到一种方法来知道磁盘是否即将发生故障,白天是否空间不足(由于测试期间数据库膨胀或其他原因),以及我没有真正考虑过的任何事(例如,我是否需要监控网络流量?)
就这个问题而言,假设我只是运行 Perfmon 并手动挑选计数器。
答案1
PhysicalDisk - 平均队列长度始终是一个值得关注的指标,它可以表明很多情况:性能低下、磁盘即将发生故障、需要更多内存、需要更多主轴等。