在我有两台服务器中,一台使用 RTX2080Ti,另一台使用 RTX3080,这两台服务器都在旧系统上按预期运行! Centos 7或8,运行最近的系统(Centos 9),然后服务器在空闲时一直冻结,日志显示“GPU从总线上脱落”!
我百分百确定这不是电源问题,但似乎当机器处于空闲状态并且内核中的空闲驱动程序开始执行其工作时,主板不会为卡提供足够的电源来按预期运行(我即兴创作!)...
在同一个旧操作系统上编译并运行最新的内核(曾经工作正常),更新的内核出现问题......所以,我怀疑最近的内核有一个错误......
好的,现在我决定在最近的操作系统(Centos 9)上运行旧内核(与以前运行良好的版本相同),我很惊讶这个问题正在发生......
所以,我很困惑!如果是操作系统问题,那么为什么当我更新内核时,以前可以工作的旧操作系统就失败了?!如果这是内核问题,那么为什么以前运行良好的旧内核在更新的操作系统上失败了!
现在,问题是......当系统空闲时,内核和操作系统之间的依赖项或库是什么?!据我了解,这是内核工作!
需要提及的更重要的事情是,禁用 cpu 空闲驱动程序并使用 ACPI 驱动程序(启动时通过idle=nomwait 内核选项)可以解决该问题,但在空载或过热时系统会变得相对较大且风扇速度相对较高!