其他(可能)相关主题的简短列表:

其他(可能)相关主题的简短列表:

症状:

系统在启动后两分钟到一个小时之内会冻结,然后在大约十秒钟后自动重启。无论系统处于登录屏幕、桌面空闲状态、观看视频等,都无关紧要。冻结+重启之前的温度读数是正常的。

我认为这意味着内存问题,但我尝试过重新安装模块、交换插槽、增加 DRAM 电压等。Ryzen 和 Aorus 主板上的线程让我陷入了困境,我一直在关闭 c 状态、增加空闲 DRAM 功率等。没有任何效果。

请注意,这款 AMD Ryzen 5 3600不是CPU 部件有缺陷;我通过 RMA 交换将其与 AMD 进行了交换,没有发现任何差异!(当我为 CPU 安装 AMD Ryzen 3400G 时,系统非常稳定。但是,我不能长期在该系统上使用该 CPU/APU。)

以下是您所能接受的尽可能多的信息。如果我遗漏了任何可能有助于进一步诊断问题的内容,请告诉我。

我花了数周宝贵的时间试图让这个版本稳定下来。此时,我觉得我已经尝试了一切方法,除了把死鸡甩过头顶。请帮我找到根本原因!我已经束手无策了,感到非常沮丧。:(

其他(可能)相关主题的简短列表:

硬件

  • 技嘉 x570 Aorus Elite 主板(UEFI 版本:F11 或 F20)
  • AMD Ryzen 5 3600 6 核处理器
  • 16GB Corsair Vengeance LPX 内存 (DDR4 2x8GB 3200Mhz)
  • 微星 GeForce GTX 970 GAMING 4G
    • 08:00.0 VGA 兼容控制器 [0300]: NVIDIA Corporation GM204 [GeForce GTX 970] [10de:13c2] (rev a1)

主要部件图片

我尝试过但没有效果的方法

  • 对内存进行了全面测试(整夜未发现任何问题)
  • 重新安装内存
  • 将内存交换至相反的内存组
  • 在同一内存条内交换内存条
  • 通过 RMA 与 AMD 更换 CPU
  • 不同的 UEFI 版本(F11 和 F20)

启动时报告的错误通常如下所示:

sudo journalctl | grep -i "hardware err"

Jul 13 17:28:36 obelisk-ubuntu kernel: mce: [Hardware Error]: Machine check events logged

Jul 13 17:28:36 obelisk-ubuntu kernel: mce: [Hardware Error]: CPU 2: Machine Check: 0 Bank 5: bea0000000000108

Jul 13 17:28:36 obelisk-ubuntu kernel: mce: [Hardware Error]: TSC 0 ADDR 1ffff87930eee MISC d012000100000000 SYND 4d000000 IPID 500b000000000

Jul 13 17:28:36 obelisk-ubuntu kernel: mce: [Hardware Error]: PROCESSOR 2:870f10 TIME 1594686497 SOCKET 0 APIC 4 microcode 8701013

Jul 13 20:06:36 obelisk-ubuntu kernel: mce: [Hardware Error]: Machine check events logged

Jul 13 20:06:36 obelisk-ubuntu kernel: mce: [Hardware Error]: CPU 4: Machine Check: 0 Bank 5: bea0000000000108

Jul 13 20:06:36 obelisk-ubuntu kernel: mce: [Hardware Error]: TSC 0 ADDR 1ffffbbf30eee MISC d012000100000000 SYND 4d000000 IPID 500b000000000

Jul 13 20:06:36 obelisk-ubuntu kernel: mce: [Hardware Error]: PROCESSOR 2:870f10 TIME 1594695977 SOCKET 0 APIC a microcode 8701021

Jul 15 16:57:44 obelisk-ubuntu kernel: mce: [Hardware Error]: Machine check events logged

Jul 15 16:57:44 obelisk-ubuntu kernel: mce: [Hardware Error]: CPU 1: Machine Check: 0 Bank 5: bea0000000000108

Jul 15 16:57:44 obelisk-ubuntu kernel: mce: [Hardware Error]: TSC 0 ADDR 1ffff89330eee MISC d012000100000000 SYND 4d000000 IPID 500b000000000

Jul 15 16:57:44 obelisk-ubuntu kernel: mce: [Hardware Error]: PROCESSOR 2:870f10 TIME 1594857445 SOCKET 0 APIC 1 microcode 8701021

更多的:

UEFI 设置

下图中的设置是指最新的稳定 UEFI 版本 F20。

我尝试过但没有变化的事情(注意没有任何形式的超频)

  • 技嘉 UEFI 的每个版本在 F11 和 F20 之间都处于“优化默认”设置
  • 将核心 DRAM 电压提高至 1.35V
  • 下面/图中的许多设置都朝一个方向或另一个方向切换:
    • CPU 时钟频率:自动(36.00)
    • CPU 时钟控制:自动 (100.00MHz)
    • 极限内存配置文件 (XMP):已禁用
    • CPU Vcor​​e:自动
    • CPU Vcor​​e 负载线校准:自动
    • CSM 支持:已启用
    • SMT 模式:已禁用
    • 电源空闲控制:典型空闲电流
    • IOMMU:已启用
    • SVM 模式:已启用
    • ACS 已启用:自动
    • 启用 AER 上限:自动
    • 全局 C 状态控制:已禁用
    • DRAM 电源选项 > 断电启用:已禁用

软件

Ubuntu 20.04 LTS

$ uname -a 
Kernel: Linux obelisk-ubuntu 5.4.0-40-generic #44-Ubuntu SMP Tue Jun 23 00:01:04 UTC 2020 x86_64 x86_64 x86_64 GNU/Linux
$ grep GRUB_CMDLINE_LINUX_DEFAULT /etc/default/grub
GRUB_CMDLINE_LINUX_DEFAULT="quiet splash atkbd.reset=1 i8042.reset pci=assign-busses apicmaintimer idle=poll reboot=cold,hard processor.max_cstate=1 rcu_nocbs=0-11"

我也尝试安装禅宗国度包并将其设置为禁用 C6。

以下是包含我认为你可能会要求的所有其他内容

答案1

我在这种主板类型上使用 3700X 时遇到了同样的问题,运行 Debian Buster 和不同的内核。系统之前稳定了很长时间,当我更新 BIOS 并安装新内存时,问题就开始出现了。今天尝试将 BIOS 刷新回 F3 版本,现在系统似乎又稳定了。不幸的是,这个旧的 BIOS 版本似乎不支持我的内存库上的 ecc。

相关内容