我正在组装我的个人电脑。
我使用的主板是 TB85。
我首先测试了 5 GPU coolbits 配置,
然后我测试了 6 GPU coolbits 配置,
两者都运行良好。
当我nvidia-sensors
在终端中运行“”时,它会显示热控制和所有滑块。
以下也可以正常运行:
sudo nvidia-xconfig -a --cool-bits=4
let NumGPU=6
for (( n=0; n < NumGPU; n++))
do
/usr/bin/nvidia-settings -a "[gpu:$n]/GPUFanControlState=1"
/usr/bin/nvidia-settings -a "[fan:$n]/GPUTargetFanSpeed=100"
done
我使用 1 比 4 GPU 分配器添加了第 7 个 GPU。
然后我有:
- GTX 1070
- GTX 1070
- GTX 1060
- GTX 1060
- GTX 1060
- GTX 1060
- GTX 1060
(2 个 GTX 1070 + 5 个 GTX 1060)
在这种配置下,“SETI@home”继续运行,但是两个 gpu 不再具有风扇控制。
jstateson@tb85-nvidia:~/Desktop$ nvidia-smi
Fri Jul 26 08:21:45 2019
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 390.116 Driver Version: 390.116 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 GeForce GTX 1070 Off | 00000000:01:00.0 On | N/A |
|100% 41C P2 101W / 151W | 1499MiB / 8117MiB | 91% Default |
+-------------------------------+----------------------+----------------------+
| 1 GeForce GTX 106... Off | 00000000:02:00.0 Off | N/A |
|100% 62C P2 121W / 120W | 1300MiB / 6078MiB | 95% Default |
+-------------------------------+----------------------+----------------------+
| 2 GeForce GTX 106... Off | 00000000:03:00.0 Off | N/A |
|100% 59C P2 115W / 120W | 1292MiB / 3019MiB | 92% Default |
+-------------------------------+----------------------+----------------------+
| 3 GeForce GTX 106... Off | 00000000:04:00.0 Off | N/A |
|100% 64C P2 83W / 120W | 1292MiB / 3019MiB | 93% Default |
+-------------------------------+----------------------+----------------------+
| 4 GeForce GTX 1070 Off | 00000000:05:00.0 Off | N/A |
| 0% 45C P2 85W / 151W | 1315MiB / 8119MiB | 87% Default |
+-------------------------------+----------------------+----------------------+
| 5 GeForce GTX 106... Off | 00000000:09:00.0 Off | N/A |
|100% 57C P2 84W / 120W | 1292MiB / 3019MiB | 100% Default |
+-------------------------------+----------------------+----------------------+
| 6 GeForce GTX 106... Off | 00000000:0A:00.0 Off | N/A |
| 48% 65C P2 60W / 120W | 1045MiB / 3019MiB | 52% Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| 0 1222 G /usr/lib/xorg/Xorg 86MiB |
| 0 1685 G /usr/bin/gnome-shell 97MiB |
| 0 12951 C ...x41p_V0.98b1_x86_64-pc-linux-gnu_cuda90 1303MiB |
| 1 1222 G /usr/lib/xorg/Xorg 6MiB |
| 1 12922 C ...x41p_V0.98b1_x86_64-pc-linux-gnu_cuda90 1281MiB |
| 2 1222 G /usr/lib/xorg/Xorg 6MiB |
| 2 12917 C ...x41p_V0.98b1_x86_64-pc-linux-gnu_cuda90 1273MiB |
| 3 1222 G /usr/lib/xorg/Xorg 6MiB |
| 3 12944 C ...x41p_V0.98b1_x86_64-pc-linux-gnu_cuda90 1273MiB |
| 4 12958 C ...x41p_V0.98b1_x86_64-pc-linux-gnu_cuda90 1303MiB |
| 5 1222 G /usr/lib/xorg/Xorg 6MiB |
| 5 12932 C ...x41p_V0.98b1_x86_64-pc-linux-gnu_cuda90 1273MiB |
| 6 12970 C ...x41p_V0.98b1_x86_64-pc-linux-gnu_cuda90 1033MiB |
+-----------------------------------------------------------------------------+
看起来xorg.conf
不错,显示器工作正常,但我无法访问如上所示的#4 和#6 风扇。
我还注意到总线 ID 变化为 1..4,然后跳转到 9 和 A。
我将其改为loop NumGPU
7 并且尝试了 15 但问题依然存在。
我还注意到分离器上至少有一个 GPU 具有可工作的风扇控制。
我无法判断第二个是否有,因为我看不懂总线 ID 号。
在放入分离器之前,ID 是“ 0:01:0 .. 0:06:0
”,这是有道理的。
也许 18.04 和 NVIDIA 390 驱动程序无法处理分离器?
当 ID 为 1..6 时,粉丝为 0..5,但我该如何处理 9 和“A”?
答案1
这似乎是时间问题。可能是由于不同的 GPU 和 4-in=1 PCIe 多路复用器的行为以及 GPU 排列的顺序以及可能的供应商(pny、evga、msi)造成的。
我更换了 gtx1070 主板,因为只有一个风扇的主板风扇旋转得不够快,而且它放在机架中,没有太多空气。另一台 gtx1070 有一对风扇,更容易受到大型冷却风扇的影响,因此即使它运行缓慢,它仍然会运行凉爽。更换 USB3 电缆(所有电缆都在立管上)后,我发现所有电缆都启用了 coolbits。每个 GPU 都有一个温度滑块,但只有 GPU #5 没有以 100% 运行。我打开 nvidia-settings,它有一个滑块(现在所有都有),我将其设置为 100%。我不必再次运行该脚本。
所以我的结论是,4 合 1 运行正常,但细微的硬件差异导致 coolbits 机制无法完全控制。即:可以更加强大。
[编辑] 在这里找到有关公交车 ID 和如何使用 coolbits 的信息 维基百科
希望这能帮助别人