Ubuntu Server 20.04 随机崩溃

Ubuntu Server 20.04 随机崩溃

我的家庭服务器每天至少崩溃一次。这是最近的版本(2020 年 7 月 16 日,所有硬件都是新硬件等)。

机器规格:

  • 搭载 Radeon Vega Graphics 的 AMD Ryzen 5 3400G
  • B450 傲锐龙
  • 32 GB RAM DIMM DDR4
  • 1TB 固态硬盘 M2
  • 2 个 6TB 硬盘
  • 1 TB 硬盘
  • Ubuntu 20.04.1 LTS

我目前正在通过 APT 运行以下应用程序

  • Roon 服务器
  • Docker(Snap 版本已卸载)
  • 桑巴
  • Restic 用于备份

我在 Docker 上运行

  • PiHole(我已经关闭了 dnsresovler,所以这不是端口问题)
  • 波泰纳
  • Plex
  • Resilio 同步

我在日志中找不到太多信息,但在系统今天下午崩溃后,我确实发现了日志的以下部分,这引起了我的兴趣。没有告诉我太多信息,但也许有人可以帮我找到正确的方向。

由于某种原因,我无法复制或粘贴实际日志来表示我看到的内容。我附上了一张屏幕截图。简而言之,它看起来像是在对 docker 进行某些操作,然后我得到了一堆(错误的内存位置?)“”

在此处输入图片描述

系统崩溃后,我完全无法与系统交互。屏幕上显示了一些我不知道是什么意思的信息,也不知道如何获取这些数据。如果系统再次崩溃,也许我会用手机拍张照片。

我不是 Linux/ubuntu 专家(但对 Windows 相当精通),自从上周四构建机器并开始安装 ubuntu 以来,我一直在学习。

我迄今已尝试过什么。

  • 我已确保磁盘空间充足。所有驱动器都还满(使用率为 30%-40%,RAM 显示可用空间为 32GB),最近崩溃时,负载很小甚至为零。我只是在另一个房间流式传输。
  • Docker 似乎按预期运行。我确实无意中通过 apt vs snap 安装了 docker,这导致了一些问题,但我似乎已经(我认为)解决了这个问题,因为我卸载了 snap 和 apt 版本并确保删除了所有剩余的文件夹等。
  • Bios 显示所有内存都已加载并被识别。
  • fdisk -l没有任何异常,所有驱动器看起来大小正确且分区正确
  • free -h显示交换文件总共 4Gi,但使用了 12mi,RAM 显示总共 29 Gi,可用 28Gi。
  • dmesg显示此错误出现多次。搜索没有找到太多结果。
    [ 2328.925902] BUG: unable to handle page fault for address: 0000000000c045c7
    [ 2328.925905] #PF: supervisor write access in kernel mode
    [ 2328.929589] RIP: 0010:fsnotify+0x63/0x3d0
    [ 2328.933164] #PF: error_code(0x0002) - not-present page

任何人提供的帮助/想法都将不胜感激,这确实有点烦人。

编辑:根据@heynnema 的建议

sudo dmidecode -s bios-version 返回F50

sysctl vm.swappiness返回vm.swapiness = 60

sudo lshw -C memory

*-firmware
       description: BIOS
       vendor: American Megatrends Inc.
       physical id: 0
       version: F50
       date: 11/27/2019
       size: 64KiB
       capacity: 16MiB
       capabilities: pci upgrade shadowing cdboot bootselect socketedrom edd int13floppy1200 int13floppy720 int13floppy2880 int5printscreen int14serial int17printer acpi usb biosbootspecification uefi
  *-memory
       description: System Memory
       physical id: 9
       slot: System board or motherboard
       size: 32GiB
     *-bank:0
          description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 1866 MHz (0.5 ns)
          product: F4-3200C16-8GVKB
          vendor: Unknown
          physical id: 0
          serial: 00000000
          slot: DIMM 0
          size: 8GiB
          width: 64 bits
          clock: 1866MHz (0.5ns)
     *-bank:1
          description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 1866 MHz (0.5 ns)
          product: F4-3200C16-8GVKB
          vendor: Unknown
          physical id: 1
          serial: 00000000
          slot: DIMM 1
          size: 8GiB
          width: 64 bits
          clock: 1866MHz (0.5ns)
     *-bank:2
          description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 1866 MHz (0.5 ns)
          product: F4-3200C16-8GVKB
          vendor: Unknown
          physical id: 2
          serial: 00000000
          slot: DIMM 0
          size: 8GiB
          width: 64 bits
          clock: 1866MHz (0.5ns)
     *-bank:3
          description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 1866 MHz (0.5 ns)
          product: F4-3200C16-8GVKB
          vendor: Unknown
          physical id: 3
          serial: 00000000
          slot: DIMM 1
          size: 8GiB
          width: 64 bits
          clock: 1866MHz (0.5ns)
  *-cache:0
       description: L1 cache
       physical id: b
       slot: L1 - Cache
       size: 384KiB
       capacity: 384KiB
       clock: 1GHz (1.0ns)
       capabilities: pipeline-burst internal write-back unified
       configuration: level=1
  *-cache:1
       description: L2 cache
       physical id: c
       slot: L2 - Cache
       size: 2MiB
       capacity: 2MiB
       clock: 1GHz (1.0ns)
       capabilities: pipeline-burst internal write-back unified
       configuration: level=2
  *-cache:2
       description: L3 cache
       physical id: d
       slot: L3 - Cache
       size: 4MiB
       capacity: 4MiB
       clock: 1GHz (1.0ns)
       capabilities: pipeline-burst internal write-back unified
       configuration: level=3

答案1

您遇到了页面错误。

BIOS

技嘉 B450 AORUS M

您的 BIOS 版本为 F50。

有较新的 BIOS 可用,版本 F51f,可以下载这里

有更新视频这里

注意:确认我拥有适合您型号的正确网页。

注意:更新 BIOS 之前请做好备份。

记忆测试

https://www.memtest86.com/并免费下载/运行它们memtest来测试你的记忆力。至少完成一次所有 4/4 测试以确认记忆力良好。这可能需要几个小时才能完成。

更新#1:

memtest失败了。我们将首先更新 BIOS,然后使用 重新测试memtest,如果仍然出现错误,则排除内存故障。

更新 #2:

在此处输入图片描述 在此处输入图片描述 在此处输入图片描述

更新 #3:

更新 BIOS 后,memtest仍然失败。我们在插槽 1 和 2 中测试了各种 DIMM 对,它们都通过了memtest。我认为当安装所有四个 DIMM 时,Ryzen CPU 和 G.SKILL DIMM 存在兼容性问题,因此我们将它们换成了 Corsair DIMM。

memtest现在运行所有 4/4 测试,没有错误!

参考:CPU支持列表https://www.gigabyte.com/us/Motherboard/B450-AORUS-M-rev-10/support#support-cpu

参考:RAM 支持列表https://www.gigabyte.com/us/Motherboard/B450-AORUS-M-rev-10/support#support-doc

相关内容