我有一个几天前刚刚构建的全新系统,它有 4 个 NVidia Titan X GPU、8x16Gb Gskill DDR4-2400 内存,安装在 Asus X99-E WS 主板上,运行 Ubuntu 14.04。
我正在寻找方法找出导致这些随机重启的原因,系统甚至没有做任何事情,只是处于空闲状态……而且这种情况已经发生了好几次了!不应该有任何过热,因为 CPU 是水冷的,而且我的 lm-sensor 显示 GPU 在空闲时的温度约为 35C,而且每当系统重新启动时(我不在时),它总是什么也不做,所以过热不应该是这里的问题。
我照做了last reboot
,发现还有几次我不知道的自动重启,所以我去查看了一下,/var/log/kern.log
希望能看到一些有用的信息。我发现大约每分钟都会记录以下错误消息:
AER: Multiple Corrected error received: id=0018
PCIe Bus Error: severity=Corrected, type=Data Link Layer, id=0018(Receiver ID)
device [8086:6f08] error status/mask=00000040/00002000
[6] Bad TLP
然后在自发重启之前,记录以下内容:
\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00
\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00
\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00
\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00
\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00\00
接下来是重启日志:
[0.000000] Initializing cgroup subsys cpuset
[0.000000] Initializing cgroup subsys cpu
...
它告诉我什么?还是我查看了错误的日志文件?
答案1
这似乎是一个内核错误。https://bugzilla.kernel.org/show_bug.cgi?id=109691#c2建议通过在 grub 中的内核命令行中添加来关闭 AER pci=noaer
。例如,您可以将其添加到/etc/default/grub
第 12 行左右:
GRUB_CMDLINE_LINUX="pci=noaer"
这能解决这些问题吗?
答案2
您的 PCI 设备 ID 8086:6f08 出现问题。在终端中,输入lspci
并找到包含 8086:6f08 的行,我怀疑它会指向您的一个 Nvidia GPU。如果有四张独立的卡,请拔出除一张之外的所有卡,看看是否继续显示错误。继续添加 GPU,直到显示错误。您可能有一张坏卡,或者 GPU BIOS/固件/软件需要更新。请查看 Nvidia 网站。
编辑:或lsusb
并识别 USB 设备或控制器。
请告诉我你的情况。干杯,Al
答案3
事实证明这是华硕的一个糟糕的 BIOS!
我在网上查看了一下,似乎使用华硕 Rampage 系列 (X99) 主板和高端 Nvidia 显卡的人也遇到了这个自发重启的问题,而且这个问题似乎与糟糕的 BIOS 有关。
这些人声称较新的 3xxx 版 Bios 导致了这种随机重启,但如果他们恢复到 2xxx 版 Bios,那么它就会非常稳定。
尽管我的主板是 Asus (X99-E WS),而不是 Rampage,但我的 Bios 是 3101,所以我尝试看看是否可以为我的主板找到 2xxx 版本的 bios。虽然我找不到可以回退的版本,但华硕恰好在三天前为我的主板发布了一个新的 Bios (v3302),我试了一下,两天来它一直运行良好,没有随机重启。希望这能解决问题...!