我最近买了一台新机器,配有 AMD Threadripper 2990wx CPU(未超频)、4*16GB RAM、Gigabyte X399 Designare EX 主板、NVIDIA RTX 2080 GPU 和 1200 瓦 PSU。我已在机器上安装了 Ubuntu 18.04.1。
我注意到,当我给它施加非常高的负载时,机器会在几秒钟内冻结,直到它对除了我用来重新启动它的神奇 SysRq 代码之外的任何事情都无响应。甚至切换 Num Lock 也不起作用!
我已经阅读了大量有关各种 Ryzen 错误的文章,并尝试了以下方法解决问题,但没有成功:
- 在内核命令行中添加“idle=nomwait”(虽然这是为了修复空闲时的冻结问题)
- 在内核命令行中添加“rcu_nocbs=0-63”
- 升级到内核 4.18.0-15-generic
- 安装“amd64-microcode”包
- 使用“ZenStates”实用程序禁用 C6 核心状态
- 进入 BIOS 设置并从那里禁用 C6 状态
- 进入 BIOS 设置并禁用“CPU 性能提升”
- 在内核命令行中添加“processor.max_cstate=1”
我找不到其他可以尝试的方法,而且似乎没有人遇到过同样的问题。我见过 Ryzen 段错误错误和空闲冻结问题,但没有见过高负载冻结问题。
我在尝试编译自己的内核时遇到了这个问题。当我运行 时make -j modules
,编译开始,我看到所有核心都跳转到 100% 负载,4-5 秒后机器冻结。如果我使用make -j 64
,我仍然看到所有核心都达到 100%,但构建完成没有问题。
我查看了/var/log/syslog
、/var/log/dmesg
和/var/log/kern.log
我能找到的任何其他日志文件,但找不到与此相关的任何内容。看起来一切正常,然后暂停一分钟,开始新的内核启动输出,没有错误消息,没有警告,没有 oops/panic 消息,没有软锁定消息。
关于这可能是什么以及我下一步应该尝试什么,您有什么想法吗?
谢谢!