coolbits 在添加 Pcie 分离器后“缺少风扇”

coolbits 在添加 Pcie 分离器后“缺少风扇”

我正在组装我的个人电脑。

我使用的主板是 TB85。

我首先测试了 5 GPU coolbits 配置,

然后我测试了 6 GPU coolbits 配置,

两者都运行良好。

当我nvidia-sensors在终端中运行“”时,它会显示热控制和所有滑块。

以下也可以正常运行:

sudo nvidia-xconfig -a --cool-bits=4
let NumGPU=6
for (( n=0; n < NumGPU; n++))
do
        /usr/bin/nvidia-settings -a "[gpu:$n]/GPUFanControlState=1"
        /usr/bin/nvidia-settings -a "[fan:$n]/GPUTargetFanSpeed=100"
done

我使用 1 比 4 GPU 分配器添加了第 7 个 GPU。

然后我有:

  • GTX 1070
  • GTX 1070
  • GTX 1060
  • GTX 1060
  • GTX 1060
  • GTX 1060
  • GTX 1060

(2 个 GTX 1070 + 5 个 GTX 1060)

在这种配置下,“SETI@home”继续运行,但是两个 gpu 不再具有风扇控制。

jstateson@tb85-nvidia:~/Desktop$ nvidia-smi
Fri Jul 26 08:21:45 2019
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 390.116                Driver Version: 390.116                   |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce GTX 1070    Off  | 00000000:01:00.0  On |                  N/A |
|100%   41C    P2   101W / 151W |   1499MiB /  8117MiB |     91%      Default |
+-------------------------------+----------------------+----------------------+
|   1  GeForce GTX 106...  Off  | 00000000:02:00.0 Off |                  N/A |
|100%   62C    P2   121W / 120W |   1300MiB /  6078MiB |     95%      Default |
+-------------------------------+----------------------+----------------------+
|   2  GeForce GTX 106...  Off  | 00000000:03:00.0 Off |                  N/A |
|100%   59C    P2   115W / 120W |   1292MiB /  3019MiB |     92%      Default |
+-------------------------------+----------------------+----------------------+
|   3  GeForce GTX 106...  Off  | 00000000:04:00.0 Off |                  N/A |
|100%   64C    P2    83W / 120W |   1292MiB /  3019MiB |     93%      Default |
+-------------------------------+----------------------+----------------------+
|   4  GeForce GTX 1070    Off  | 00000000:05:00.0 Off |                  N/A |
|  0%   45C    P2    85W / 151W |   1315MiB /  8119MiB |     87%      Default |
+-------------------------------+----------------------+----------------------+
|   5  GeForce GTX 106...  Off  | 00000000:09:00.0 Off |                  N/A |
|100%   57C    P2    84W / 120W |   1292MiB /  3019MiB |    100%      Default |
+-------------------------------+----------------------+----------------------+
|   6  GeForce GTX 106...  Off  | 00000000:0A:00.0 Off |                  N/A |
| 48%   65C    P2    60W / 120W |   1045MiB /  3019MiB |     52%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|    0      1222      G   /usr/lib/xorg/Xorg                            86MiB |
|    0      1685      G   /usr/bin/gnome-shell                          97MiB |
|    0     12951      C   ...x41p_V0.98b1_x86_64-pc-linux-gnu_cuda90  1303MiB |
|    1      1222      G   /usr/lib/xorg/Xorg                             6MiB |
|    1     12922      C   ...x41p_V0.98b1_x86_64-pc-linux-gnu_cuda90  1281MiB |
|    2      1222      G   /usr/lib/xorg/Xorg                             6MiB |
|    2     12917      C   ...x41p_V0.98b1_x86_64-pc-linux-gnu_cuda90  1273MiB |
|    3      1222      G   /usr/lib/xorg/Xorg                             6MiB |
|    3     12944      C   ...x41p_V0.98b1_x86_64-pc-linux-gnu_cuda90  1273MiB |
|    4     12958      C   ...x41p_V0.98b1_x86_64-pc-linux-gnu_cuda90  1303MiB |
|    5      1222      G   /usr/lib/xorg/Xorg                             6MiB |
|    5     12932      C   ...x41p_V0.98b1_x86_64-pc-linux-gnu_cuda90  1273MiB |
|    6     12970      C   ...x41p_V0.98b1_x86_64-pc-linux-gnu_cuda90  1033MiB |
+-----------------------------------------------------------------------------+

看起来xorg.conf不错,显示器工作正常,但我无法访问如上所示的#4 和#6 风扇。

我还注意到总线 ID 变化为 1..4,然后跳转到 9 和 A。

我将其改为loop NumGPU7 并且尝试了 15 但问题依然存在。

我还注意到分离器上至少有一个 GPU 具有可工作的风扇控制。

我无法判断第二个是否有,因为我看不懂总线 ID 号。

在放入分离器之前,ID 是“ 0:01:0 .. 0:06:0”,这是有道理的。

也许 18.04 和 NVIDIA 390 驱动程序无法处理分离器?

当 ID 为 1..6 时,粉丝为 0..5,但我该如何处理 9 和“A”?

答案1

这似乎是时间问题。可能是由于不同的 GPU 和 4-in=1 PCIe 多路复用器的行为以及 GPU 排列的顺序以及可能的供应商(pny、evga、msi)造成的。

我更换了 gtx1070 主板,因为只有一个风扇的主板风扇旋转得不够快,而且它放在机架中,没有太多空气。另一台 gtx1070 有一对风扇,更容易受到大型冷却风扇的影响,因此即使它运行缓慢,它仍然会运行凉爽。更换 USB3 电缆(所有电缆都在立管上)后,我发现所有电缆都启用了 coolbits。每个 GPU 都有一个温度滑块,但只有 GPU #5 没有以 100% 运行。我打开 nvidia-settings,它有一个滑块(现在所有都有),我将其设置为 100%。我不必再次运行该脚本。

所以我的结论是,4 合 1 运行正常,但细微的硬件差异导致 coolbits 机制无法完全控制。即:可以更加强大。

[编辑] 在这里找到有关公交车 ID 和如何使用 coolbits 的信息 维基百科

希望这能帮助别人

相关内容