戴尔 R710 或 R730xd 中的 GeForce GTX 1060 卡用于机器学习?

戴尔 R710 或 R730xd 中的 GeForce GTX 1060 卡用于机器学习?

我们正在研究如何加速使用 Theano 和 Keras 编写的一些机器学习代码,特别是通过购买 GPU 卡。有人有直接使用这种或类似组合的经验吗?具体来说,我们对人们在以下方面的体验感兴趣:

  • 在 Dell R710 或 R730xd 中安装 GTX 1060 之类的卡是否可行?
  • 除了安装必要的 Nvidia 驱动程序外,还需要什么特殊操作才能让 CentOS Linux 识别该卡吗?
  • 我们是否应该担心与电力、冷却等相关的问题?

类似的问题已被询问,但针对不同的卡和操作系统。其他地方的讨论如这里建议类似的硬件也有可能,但有点棘手。在我们组织购买硬件之前,了解是否存在严重问题会很有帮助。

答案1

  1. 您需要 Nvidia 专有驱动程序才能使用 CUDA/OpenCL。

该卡需要使用 X 配置,因为 Nvidia 驱动程序是 X 驱动程序,但它仍可配置为“无头”,并且您可以拥有多个显卡。

有关在无头服务器中运行 GPU 的一些详细信息来自: https://sites.google.com/site/akohlmey/random-hacks/nvidia-gpu-coolness

Faking a "Head" for a Headless X Server The biggest remaining challenge is now to make the X server launch properly without having a display attached. Nowadays, display settings are negotiated between the X server and the display via EDID, and this is how we can simulate a display. The X server allows to override EDID settings and to define which display to configure through settings in the /etc/X11/xorg.conf file. All that is missing is a valid EDID file and this can be obtained from nvidia-settings through the "Acquire EDID" button, when examining the properties of a currently attached display (doesn't matter which one). In the xorg.conf file, something along the lines of the following has to be set.

Section "Screen"
    Identifier     "Screen0"
    Option         "UseDisplayDevice" "DFP-0"
    Option         "ConnectedMonitor" "DFP-0"
    Option         "CustomEDID" "DFP-0:/etc/X11/dfp-edid.bin"
    Option         "Coolbits" "5"
    .... End Section
  1. 我在 ELRepo 中找到了预打包的驱动程序

https://elrepo.org/tiki/tiki-index.php

也可以从 Nvidia 网站下载,但这意味着不能自动更新。

我无法说服务器将如何响应其中的附加 GPU,但您可能需要弄乱 BIOS。根据上面提到的关于将其配置为无头的站点,您可能需要在将其配置为主图形适配器的情况下启动服务器,或者至少临时插入一个显示器以使用 nvidia 实用程序进行设置(以生成dfp-edid.bin)。

相关内容