我刚刚设置了 Cacti 来监控我认为需要升级的服务器上的 CPU 和内存使用情况,但为了能够获得资金支持,我需要确凿的事实。
我认为使用 Cacti 来监控内存使用情况和平均负载就可以解决问题,但生成的图表似乎与现实没有任何关联。
根据 top 的数据,我目前的平均负载徘徊在 5 左右,但 Cacti 将其绘制在 0.1 处!
如何让 cacti 监控服务器上的实际负载平均值?要监控的服务器正在运行 RHEL5 并使用 net-SNMP 作为 SNMP 守护程序。
谢谢,
巴特。
答案1
你可能想看看穆宁,它非常容易设置,特别是如果您只是在本地运行它。它可以让您快速开始跟踪 CPU 负载和其他资源,而无需使用 SNMP 和远程获取资源数据。RedHat 有软件包,安装起来应该相当简单。
答案2
cacti 有一个糟糕的默认图表,它将平均负载的 3 个值堆叠起来。总数毫无意义,这就是你被欺骗去查看的。将默认图表更改为使用线而不是堆叠,你会看到更好的结果。
答案3
请记住,负载(例如 /proc/loadavg)可以在不同的时间间隔内(通常为 1、5 和 15 分钟)取平均值。再加上在时间序列上再次平均这些数字往往会降低整体指标,您可能很难证明自己需要升级。
我建议你不要再考虑技术解决方案,而是开始围绕不同的指标构建业务案例,最好是与经济或客户满意度指标相关的指标——例如最大响应时间。这很可能会让你的信息传达给管理资金的人。
答案4
我想补充@labradort 的回答。
我假设您说的是ucd/net - Load Average
模板。出现错误值的原因是它分别显示 1/5/15 的平均值,然后将它们相加。这些值在技术上是正确的,但看起来很奇怪。您可以这样纠正这个问题:
转到图形模板,然后选择右侧的复选框ucd/net - Load Average
。
向下滚动,选择“复制”作为操作(而不是删除),然后单击“执行”。
为新模板选择一个名称,例如ucd/net - Alternative Load Average
。
仍然在图形模板部分,单击新模板的超链接进行编辑。
单击“项目 # 3”。将“图形项目类型”从 STACK 更改为 LINE1,然后单击保存。
对“项目 # 5”重复此操作。
删除‘项目 # 7’:‘(无任务):总计’
完成后单击保存。