我的家庭服务器每天至少崩溃一次。这是最近的版本(2020 年 7 月 16 日,所有硬件都是新硬件等)。
机器规格:
- 搭载 Radeon Vega Graphics 的 AMD Ryzen 5 3400G
- B450 傲锐龙
- 32 GB RAM DIMM DDR4
- 1TB 固态硬盘 M2
- 2 个 6TB 硬盘
- 1 TB 硬盘
- Ubuntu 20.04.1 LTS
我目前正在通过 APT 运行以下应用程序
- Roon 服务器
- Docker(Snap 版本已卸载)
- 桑巴
- Restic 用于备份
我在 Docker 上运行
- PiHole(我已经关闭了 dnsresovler,所以这不是端口问题)
- 波泰纳
- Plex
- Resilio 同步
我在日志中找不到太多信息,但在系统今天下午崩溃后,我确实发现了日志的以下部分,这引起了我的兴趣。没有告诉我太多信息,但也许有人可以帮我找到正确的方向。
由于某种原因,我无法复制或粘贴实际日志来表示我看到的内容。我附上了一张屏幕截图。简而言之,它看起来像是在对 docker 进行某些操作,然后我得到了一堆(错误的内存位置?)“”
系统崩溃后,我完全无法与系统交互。屏幕上显示了一些我不知道是什么意思的信息,也不知道如何获取这些数据。如果系统再次崩溃,也许我会用手机拍张照片。
我不是 Linux/ubuntu 专家(但对 Windows 相当精通),自从上周四构建机器并开始安装 ubuntu 以来,我一直在学习。
我迄今已尝试过什么。
- 我已确保磁盘空间充足。所有驱动器都还满(使用率为 30%-40%,RAM 显示可用空间为 32GB),最近崩溃时,负载很小甚至为零。我只是在另一个房间流式传输。
- Docker 似乎按预期运行。我确实无意中通过 apt vs snap 安装了 docker,这导致了一些问题,但我似乎已经(我认为)解决了这个问题,因为我卸载了 snap 和 apt 版本并确保删除了所有剩余的文件夹等。
- Bios 显示所有内存都已加载并被识别。
fdisk -l
没有任何异常,所有驱动器看起来大小正确且分区正确free -h
显示交换文件总共 4Gi,但使用了 12mi,RAM 显示总共 29 Gi,可用 28Gi。dmesg
显示此错误出现多次。搜索没有找到太多结果。
[ 2328.925902] BUG: unable to handle page fault for address: 0000000000c045c7
[ 2328.925905] #PF: supervisor write access in kernel mode
[ 2328.929589] RIP: 0010:fsnotify+0x63/0x3d0
[ 2328.933164] #PF: error_code(0x0002) - not-present page
任何人提供的帮助/想法都将不胜感激,这确实有点烦人。
编辑:根据@heynnema 的建议
sudo dmidecode -s bios-version
返回F50
sysctl vm.swappiness
返回vm.swapiness = 60
sudo lshw -C memory
:
*-firmware
description: BIOS
vendor: American Megatrends Inc.
physical id: 0
version: F50
date: 11/27/2019
size: 64KiB
capacity: 16MiB
capabilities: pci upgrade shadowing cdboot bootselect socketedrom edd int13floppy1200 int13floppy720 int13floppy2880 int5printscreen int14serial int17printer acpi usb biosbootspecification uefi
*-memory
description: System Memory
physical id: 9
slot: System board or motherboard
size: 32GiB
*-bank:0
description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 1866 MHz (0.5 ns)
product: F4-3200C16-8GVKB
vendor: Unknown
physical id: 0
serial: 00000000
slot: DIMM 0
size: 8GiB
width: 64 bits
clock: 1866MHz (0.5ns)
*-bank:1
description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 1866 MHz (0.5 ns)
product: F4-3200C16-8GVKB
vendor: Unknown
physical id: 1
serial: 00000000
slot: DIMM 1
size: 8GiB
width: 64 bits
clock: 1866MHz (0.5ns)
*-bank:2
description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 1866 MHz (0.5 ns)
product: F4-3200C16-8GVKB
vendor: Unknown
physical id: 2
serial: 00000000
slot: DIMM 0
size: 8GiB
width: 64 bits
clock: 1866MHz (0.5ns)
*-bank:3
description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 1866 MHz (0.5 ns)
product: F4-3200C16-8GVKB
vendor: Unknown
physical id: 3
serial: 00000000
slot: DIMM 1
size: 8GiB
width: 64 bits
clock: 1866MHz (0.5ns)
*-cache:0
description: L1 cache
physical id: b
slot: L1 - Cache
size: 384KiB
capacity: 384KiB
clock: 1GHz (1.0ns)
capabilities: pipeline-burst internal write-back unified
configuration: level=1
*-cache:1
description: L2 cache
physical id: c
slot: L2 - Cache
size: 2MiB
capacity: 2MiB
clock: 1GHz (1.0ns)
capabilities: pipeline-burst internal write-back unified
configuration: level=2
*-cache:2
description: L3 cache
physical id: d
slot: L3 - Cache
size: 4MiB
capacity: 4MiB
clock: 1GHz (1.0ns)
capabilities: pipeline-burst internal write-back unified
configuration: level=3
答案1
您遇到了页面错误。
BIOS
技嘉 B450 AORUS M
您的 BIOS 版本为 F50。
有较新的 BIOS 可用,版本 F51f,可以下载这里。
有更新视频这里。
注意:确认我拥有适合您型号的正确网页。
注意:更新 BIOS 之前请做好备份。
记忆测试
去https://www.memtest86.com/并免费下载/运行它们memtest
来测试你的记忆力。至少完成一次所有 4/4 测试以确认记忆力良好。这可能需要几个小时才能完成。
更新#1:
memtest
失败了。我们将首先更新 BIOS,然后使用 重新测试memtest
,如果仍然出现错误,则排除内存故障。
更新 #2:
更新 #3:
更新 BIOS 后,memtest
仍然失败。我们在插槽 1 和 2 中测试了各种 DIMM 对,它们都通过了memtest
。我认为当安装所有四个 DIMM 时,Ryzen CPU 和 G.SKILL DIMM 存在兼容性问题,因此我们将它们换成了 Corsair DIMM。
memtest
现在运行所有 4/4 测试,没有错误!
参考:CPU支持列表https://www.gigabyte.com/us/Motherboard/B450-AORUS-M-rev-10/support#support-cpu
参考:RAM 支持列表https://www.gigabyte.com/us/Motherboard/B450-AORUS-M-rev-10/support#support-doc