我正在针对域中的所有服务器配置性能监视器。我使用 WhatsUp Gold 16.2 在达到某些阈值时发送警报。我最近读到一篇微软的文章,其中提到 150 页/秒是可接受的阈值。WUG 的问题在于,我能测量的最小单位是一分钟。我考虑过将 150*60 相乘,并在 9000 以上时发送警报,但这似乎不是内存压力的良好指示
我的一位系统管理员创建了一个监视器,一旦 30 分钟内页面错误超过 4000 次,就会发出警报。我认为这并不比我上面提出的监视器更好。
4000 页面错误监视器的示例:
物理,不是 VM Server 2003 R2 w/SP2 用作远程办公室的域控制器 32 位 4 GB RAM 4 GB 页面文件 2 个处理器 2.8GHz
RAM 30 天图表:平均:18.5% 最大:26.6%
虚拟内存 30 天图表:平均:5.38% 最大:6.66%
上述系统在 30 分钟内触发了超过 4400 次页面错误警报。从统计数据来看,显然不存在内存压力,而且 4000 次页面错误监视器也不是一个好的故障指示器。
我的大部分环境都是虚拟的(VMWare 和 Hyper-V),大多数是 VMWare。大多数服务器都是 Server 2008 的变体,极少数是 2003,还有几台是 2012。物理服务器很少。
我的问题实际上可以归结为:
我应该监控什么,以及在采样率高达一分钟的情况下以什么阈值触发警报?