Ubuntu 崩溃:BUG:无法处理内核 NULL 指针取消引用

Ubuntu 崩溃:BUG:无法处理内核 NULL 指针取消引用

从周日开始,我的 Ubuntu 服务器崩溃了两次。第二次崩溃时,我发现了以下错误消息

BUG: unable to handle kernel NULL pointer dereference
mce: [Hardware Error]: Machine check events logged
 at 0000000000000038
IP: pick_next_entity+0x11/0x120
PGD 80000007f9939067 P4D 80000007f9939067 PUD 7f9504067 PMD 0
Oops: 0000 [#1] SMP PTI
Modules linked in: intel_rapl x86_pkg_temp_thermal intel_powerclamp coretemp kvm_intel kvm snd_hda_codec_hdmi snd_hda_codec_realtek snd_hda_codec_generic i915 irqbypass drm_
CPU: 0 PID: 2231 Comm: mysqld Not tainted 4.15.0-123-generic #126-Ubuntu
Hardware name: System manufacturer System Product Name/P8H77-M PRO, BIOS 9012 09/18/2018
RIP: 0010:pick_next_entity+0x11/0x120
RSP: 0018:ffffc23ac9857df0 EFLAGS: 00010046
RAX: 0000000000000000 RBX: 0000000000000000 RCX: ffff9cef1fa00000
RDX: 0000000000000000 RSI: 0000000000000000 RDI: 0000000000000000
RBP: ffffc23ac9857e08 R08: 0000000000000004 R09: 0000000000021080
R10: ffffc23ac9857e60 R11: 00016ba0372bae8e R12: 0000000000000000
R13: 0000000000000000 R14: ffff9ceef3b0b7c8 R15: ffffc23ac9857ec0
FS:  00007fcb5dffb700(0000) GS:ffff9cef1fa00000(0000) knlGS:0000000000000000
CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
CR2: 0000000000000038 CR3: 00000007f9bea004 CR4: 00000000001606f0
Call Trace:
pick_next_task_fair+0x7b/0x5a0
 ? __schedule+0x11e/0x880
 ? schedule+0x2c/0x80
 ? sys_sched_yield+0x5c/0x70
 ? do_syscall_64+0x73/0x130
 ? entry_SYSCALL_64_after_hwframe+0x41/0xa6
Code: c7 be 00 00 10 00 e8 bf ec ff ff eb e2 b8 ff ff ff ff eb e4 66 0f 1f 44 00 00 0f 1f 44 00 00 55 48 89 e5 41 55 41 54 49 89 fc 53 <48> 8b 7f 38 48 89 f3 4d 8b 6c 24 58
RIP: pick_next_entity+0x11/0x120 RSP: ffffc23ac9857df0

我还没有安装新的软件包或启动一些代码。当服务器空闲时会发生这种情况。

答案1

BIOS

华硕 P8H77-M PRO

您可能安装了错误的 BIOS。

您的 BIOS 版本为 9012,发布日期为 2018 年 9 月 18 日。

我在网站上看到的最新的 BIOS 是 1505,日期是 2015 年 3 月 20 日,可以在此处查看并下载

注意:确认我拥有您主板的正确网页。

注意:更新 BIOS 之前请做好备份。

记忆

https://www.memtest86.com/并免费下载/运行它们memtest来测试你的记忆力。至少完成一次所有 4/4 测试以确认记忆力良好。这可能需要几个小时才能完成。

答案2

托管公司进行了硬盘测试,发现硬盘出现故障。他们更换了硬盘,从那以后我就再也没有遇到过崩溃的情况。

不幸的是,我不知道托管公司使用了什么测试程序。

UEFI(“BIOS”)不会导致错误。我的托管公司(在本例中为 Hetzner)只是使用遵循不同版本的定制 UEFI(“BIOS”)。

tldr:硬盘出现故障,更换后运行正常

相关内容