Ganglia 的 GPU Nvidia 模块:我们需要修补 ganglia-webfrontend 吗?

Ganglia 的 GPU Nvidia 模块:我们需要修补 ganglia-webfrontend 吗?

我正在尝试添加 GPU Nvidia 模块神经节/ganglia/gmond_python_modules/gpu/nvidia/)。

我们需要打补丁吗ganglia_web.patch

如果我不应用该补丁,当我访问http://本地主机/ganglia/

如果我尝试应用该补丁,我会遇到以下问题:

ubuntu@server:/usr/share/ganglia-webfrontend$ sudo patch -p0 < /home/ubuntu/gmond_python_modules/gpu/nvidia/ganglia_web.patch
sudo: unable to resolve host server
patching file host_view.php
Hunk #1 FAILED at 17.
Hunk #2 FAILED at 37.
Hunk #3 FAILED at 144.
Hunk #4 FAILED at 153.
Hunk #5 FAILED at 169.
5 out of 5 hunks FAILED -- saving rejects to file host_view.php.rej
patching file templates/default/host_view.tpl
Hunk #1 FAILED at 80.
Hunk #2 FAILED at 89.
2 out of 2 hunks FAILED -- saving rejects to file templates/default/host_view.tpl.rej
ubuntu@server:/usr/share/ganglia-webfrontend$ cd /usr/share/ganglia-webfrontend 

自述没有提到如何处理补丁文件。

Web 界面确实包含 GPU 指标,但所有图像都是 404:

在此处输入图片描述

当我转到 时Grid > [name] > [gpu node],我没有看到任何 GPU 选项:

在此处输入图片描述

在 Ganglia 服务器上(即正在运行的服务器上gmetad),我运行了:

git clone https://github.com/ganglia/gmond_python_modules.git
sudo cp gmond_python_modules/gpu/nvidia/graph.d/*   /usr/share/ganglia-webfrontend/graph.d/
sudo /etc/init.d/gmetad restart

在 Ganglia 客户端上(即正在运行的服务器上gmond,以及 GPU 所在的服务器上),我运行了:

git clone https://github.com/ganglia/gmond_python_modules.git
sudo pip install nvidia-ml-py
sudo cp gmond_python_modules/gpu/nvidia/python_modules/nvidia.py /usr/lib/ganglia/nvidia.py
sudo cp gmond_python_modules/gpu/nvidia/conf.d/nvidia.pyconf /etc/ganglia/conf.d
sudo /etc/init.d/ganglia-monitor restart

我用:

  • Ganglia Web 前端版本 3.6.1
  • Ganglia Web 后端 (gmetad) 版本 3.6.0
  • RRDtool 版本 1.4.7。
  • Ubuntu 14.04.3 LTS x64 服务器

答案1

我自己也遇到了这个问题,奇怪的是昨天也遇到了。我问了模块的开发人员。他说它应该“可以正常工作”...所以,玩了一会儿之后,我发现下面的方法可以工作:

在网络主机上:

  1. cp conf.d/nvidia.pyconf /etc/ganglia/conf.d/
  2. cp graph.d/* /usr/share/ganglia-webfrontend/graph.d/
  3. 重启gmond

在 GPU 节点上(注意,这是 RHEL/SL/Cent 包名称和位置):

  1. 安装 pip(python-pip)
  2. 运行:pip install nvidia-ml-py
  3. 来源:

    cp conf.d/nvidia.pyconf /etc/ganglia/conf.d/
    cp python_module/nvidia.py /usr/lib64/ganglia/
    
  4. 重启gmond

现在无需修补 Web 树。因此,在 Web 界面上转到:

Grid > [name] > [gpu node]

现在列表中应该有一个“gpu 指标”。可能需要折叠起来查看。如果有不是出于某种原因,你可以去网格 > [名称]页面底部的“指标”下拉菜单中,选择一个 gpu_* 指标。该可能执行此操作后,踢出一些东西。我必须这样做才能让其中一个节点显示“gpu 指标”部分……但另一个节点我没有这样做。

因人而异。

—J

答案2

在 Ubuntu xenial 上,我发现我还需要添加modpython.conf以告诉 gangliamodpython.so加载nvidia.py模块:

  1. 安装 pip(python-pip)
  2. 跑步:sudo pip install nvidia-ml-py
  3. 来源:

    cp conf.d/nvidia.pyconf /etc/ganglia/conf.d/
    cp python_module/nvidia.py /usr/lib/ganglia/python_modules/
    
  4. 如果你没有/etc/ganglia/conf.d/modpython.conf

    cat <<EOF | sudo tee /etc/ganglia/conf.d/modpython.conf
    modules {
      module {
        name = "python_module"
        path = "/usr/lib/ganglia/modpython.so"
        params = "/usr/lib/ganglia/python_modules/"
      }
    }
    include ('/etc/ganglia/conf.d/*.pyconf')
    EOF
    

相关内容