amdgpu-pro *ERROR* 在安装了 HWE 堆栈的 Ubuntu 服务器 20.04.1 上出现 ring sdma0 超时错误

amdgpu-pro *ERROR* 在安装了 HWE 堆栈的 Ubuntu 服务器 20.04.1 上出现 ring sdma0 超时错误

我在挖矿机上使用 Ubuntu 服务器 20.04.1。(内核:5.8.0-34-generic x86_64)和 amdgpu-pro。24-48 小时后,我收到以下错误消息,并且机器完全冻结:

[53990.091296] [drm:amdgpu_job_timeout [amdgpu]] *ERROR* ring sdma0 timeout, signaled seq=425102, emitted seq=425103
[53990.098608] [drm:amdgpu_job_timeout [amdgpu]] *ERROR* Process information: process ethminer pid 1106 thread ethminer 1106
[54016.509585] Kernel panic - not syncing: Timeout: Not all CPUs entered broadcast exception handler
[54017.564573] Shutting down cpus with NMI
[54017.580849] Kernel Offset: 0x3000000 from 0xffffffff81000000 (relocation range: 0xffffffff80000000-0xffffffffbfffffff
[54017.585947] Rebooting in 30 seconds..
[54047.310232] ACPI MEMORY or I/O RESET_REG.

此后需要进行硬重置。

我仅安装了 amdgpu-pro (20.45-1188099-ubunut-20.04) 和./amdgpu-pro-install --opencl=pal,legacy --headlessHWE 堆栈。

由于我对 Ubuntu(以及 Linux)还很陌生,所以我不知道是什么导致了错误。这可能是硬件故障/老旧的表现吗?这些显卡已经运行了 2 年多(但之前使用过其他操作系统)。

任何帮助或提示都非常感谢。如果需要更多信息,我很乐意提供。

谢谢

相关内容