如何重新启动失败的 amdgpu 内核模块

Question 1

正如 @Chris Stryczynski 所说，sudo cat /sys/kernel/debug/dri/N/amdgpu_gpu_recover这是重新加载 amdgpu 内核模块的正确方法，或者您可以使用amdgpu.gpu_recovery=1内核参数启动系统，以便在崩溃时自动重置它。

但这些选项的用处不大，因为显示服务器（Xorg 或 Wayland）必须重新初始化其图形堆栈，而桌面环境无法执行此操作。（尚未实现。）

使用 gpu_recovery 内核参数，即使不可见，您也可以保存您的工作，然后重新启动。

Answer

正如 @Chris Stryczynski 所说，sudo cat /sys/kernel/debug/dri/N/amdgpu_gpu_recover这是重新加载 amdgpu 内核模块的正确方法，或者您可以使用amdgpu.gpu_recovery=1内核参数启动系统，以便在崩溃时自动重置它。

但这些选项的用处不大，因为显示服务器（Xorg 或 Wayland）必须重新初始化其图形堆栈，而桌面环境无法执行此操作。（尚未实现。）

使用 gpu_recovery 内核参数，即使不可见，您也可以保存您的工作，然后重新启动。

Question 2

https://github.com/RadeonOpenCompute/ROCK-Kernel-Driver/issues/11#issuecomment-450696825

如果您不想自动尝试这些重置，或者未检测到锁定，则应该能够使用 debugfs 机制来执行手动 GPU 重置，即使您尚未设置 gpu_recovery 参数。为此，（以 root 身份）读取 /sys/kernel/debug/dri/N/amdgpu_gpu_recover。在本例中，N 是您希望在 DRI 子系统中重置的 GPU 的编号。

这对我来说从来没有用过......但我想我还是会发布它。

Answer

https://github.com/RadeonOpenCompute/ROCK-Kernel-Driver/issues/11#issuecomment-450696825

如果您不想自动尝试这些重置，或者未检测到锁定，则应该能够使用 debugfs 机制来执行手动 GPU 重置，即使您尚未设置 gpu_recovery 参数。为此，（以 root 身份）读取 /sys/kernel/debug/dri/N/amdgpu_gpu_recover。在本例中，N 是您希望在 DRI 子系统中重置的 GPU 的编号。

这对我来说从来没有用过......但我想我还是会发布它。

如何重新启动失败的 amdgpu 内核模块

答案1

答案2

相关内容