监控并报告页面错误以确定内存问题

2024-5-29 • tag-icon

我正在针对域中的所有服务器配置性能监视器。我使用 WhatsUp Gold 16.2 在达到某些阈值时发送警报。我最近读到一篇微软的文章，其中提到 150 页/秒是可接受的阈值。WUG 的问题在于，我能测量的最小单位是一分钟。我考虑过将 150*60 相乘，并在 9000 以上时发送警报，但这似乎不是内存压力的良好指示

我的一位系统管理员创建了一个监视器，一旦 30 分钟内页面错误超过 4000 次，就会发出警报。我认为这并不比我上面提出的监视器更好。

4000 页面错误监视器的示例：

物理，不是 VM Server 2003 R2 w/SP2 用作远程办公室的域控制器 32 位 4 GB RAM 4 GB 页面文件 2 个处理器 2.8GHz

RAM 30 天图表：平均：18.5% 最大：26.6%

虚拟内存 30 天图表：平均：5.38% 最大：6.66%

上述系统在 30 分钟内触发了超过 4400 次页面错误警报。从统计数据来看，显然不存在内存压力，而且 4000 次页面错误监视器也不是一个好的故障指示器。

我的大部分环境都是虚拟的（VMWare 和 Hyper-V），大多数是 VMWare。大多数服务器都是 Server 2008 的变体，极少数是 2003，还有几台是 2012。物理服务器很少。

我的问题实际上可以归结为：

我应该监控什么，以及在采样率高达一分钟的情况下以什么阈值触发警报？

相关内容