Ganglia - 缺少某些服务器的指标

Ganglia - 缺少某些服务器的指标

我最近在 Ubuntu 16.04 服务器上安装了 Ganglia。我基本上按照说明进行操作这里

问题是,某些服务器的指标集的 rrd 文件丢失。

最重要的是,除了来自 Nvidia 插件的 GPU 指标之外,“主”节点本身没有其他指标。

有人能就这个问题给我一些建议吗?

另外,有没有办法强制立即收集至少定义一次的所有指标?

谢谢!

答案1

我找到了问题和解决方案。

man gmond.conf说:

If you have a large system with lots of metrics, you might experience UDP drops. This happens when gmond is not able to process the UDP fast enough from the network.
In this case you might consider changing your setup into a more distributed setup using aggregator gmond hosts.  Alternatively you can choose to create a bigger
receive buffer:

  udp_recv_channel {
    port = 6343
    buffer = 10485760
  }
B<buffer> is specified in bytes, i.e.: 10485760 will allow 10MB UDP
to be buffered in memory.

Note: increasing buffer size will increase memory usage by gmond

net.core.rmem_max=104857600我通过添加/etc/sysctl.conf(以获得永久效果)并运行将UDP 接收缓冲区的最大大小增加到 100MB,sysctl -w net.core.rmem_max=104857600这使得我无需重新启动即可修改该值。

然后,我buffer向该块添加了一个值为 104857600 的属性udp_recv_channel并重新启动gmond

相关内容