我们有一个 SuperMicro GPU 服务器,它具有:
- 2 个 Intel(R) Xeon(R) CPU E5-2660 v4 @ 2.00GHz
- 512GB 内存
- 磁盘空间绰绰有余
- X10DRG-O+-CPU(BIOS 版本:2.0a [当前])
- X9DRG-O-PCIE PCI-E扩展卡
- 8 个 GTX 1080
它使用 Ubuntu 16.04.1 LTS、NVIDA 驱动程序 367.57 和 CUDA-8.0 进行设置。运行时,它暂时运行良好。但是,使用普通内核 (v4.4) 时,它完全没用——在任何 GPU 上执行一些不重要的操作时,系统几乎会立即冻结。因此,我们怀疑是硬件问题,但冷却正常,第二台几乎相同的机器(只是 GPU 制造商不同)表现出完全相同的行为。
为了让它运行一段时间,您必须将内核降级到 v3.14.1-trusty(测试了该版本之前的几乎所有版本)。但仍会出现随机冻结,通常日志中没有任何内容。有时整个机器都会冻结,有时只是任何与 GPU 相关的进程。
似乎其他 [1] 人 [2] 也遇到了这个问题,但没有解决方案。
有人对这种类型的机器有同样的经历吗?
更新: 如果卡只插在 PCI-E 扩展器的一侧,即所有卡都由同一个 CPU 驱动,那么机器似乎运行稳定(无论使用什么软件)。然而,另一台机器似乎运行稳定,装有 8 张卡(目前正常运行时间约为 4 个月),内核为 3.19,在出现上述问题数月之后。真奇怪。
[1]https://devtalk.nvidia.com/default/topic/958927/gpu-job-fail-/
答案1
我在同一台计算机上遇到了完全相同的问题。要解决此问题,您需要通过更改主板上的跳线 JPG1 来禁用板载 VGA。不幸的是,您需要移除子板才能做到这一点。请注意,要重新安装子板,您可能需要施加相当大的压力才能使其再次正确连接到主板。
答案2
PCI 总线(电源管理)存在一个已知问题,SuperMicro 似乎已经解决了该问题。我们刚刚从他们那里收到了一个可刷新的 BIOS+固件更新,正在测试它。我认为我不能分享这个更新(不确定是否授权),所以建议您联系 SuperMicro。