我在 HP Proliant 服务器上运行 Oracle Linux 6。过去一周运行良好,但早些时候似乎运行缓慢,因此 Oracle 服务已停止。我没有重新启动服务,而是被要求重新启动服务器,但在启动时我们遇到了内核崩溃
首先我得到了以下信息,HP 说这并不重要,但我倾向于不相信他们
[固件错误]:BIOS 已损坏 hw-PMU 资源(MSR 38d 为 330)
ERST:无法为 ERST 请求 iomem 区域 <0xffff88030c1dfe20-0xffff1006183bfc40>
然后内核崩溃
内核恐慌 - 未同步:尝试杀死 init!
Pid:1,通信:init 未受污染 2.6.39-300.26.1.el6euk.x86-64 #1
调用跟踪:
[<ffffffff81509077>] panic+0x91/0x1a8
[<ffffffff81061562>] ? enqueue_entity+0x52/0x210
[<ffffffff8107196b>] forget_original_parent+0x32b/0x330
[<ffffffff8105adbd>] ? sched_move_task+0x9d/0x150
[<ffffffff8107198b>] exit_notify+0x1b/0x190
[<ffffffff81072a8e>] do_exit+0x1fe/0x430
[<ffffffff81072d15>] do_group_exit+0x55/0xd0
[<ffffffff81072da7>] sys_exit_group+0x17/0x20
[<ffffffff81514402>] system_call_fastpath+0x16/0x1b
发生恐慌:切换回文本控制台
有人能指点一下这是什么原因造成的吗?我现在完全不知所措了。(系统管理不是我的日常工作 - 我可以让服务器运行,但内核崩溃超出了我的能力范围)
编辑: 使用以下内核进行测试
2.6.39-300.26.1.el6euk.x86_64
2.6.39-200.24.1.el6euk.x86_64
2.6.32-279.19.1.el6.x86_64
2.6.32-279.el6.x86_64
答案1
您在 init: 期间看到的第一条消息[Firmware Bug]: the BIOS has corrupted hw-PMU resources (MSR 38d is 330)
不是问题。这是 EL6 和 ProLiant 系统的标准配置。但是,此处提供删除消息的修复方法。
至于疯狂的 Oracle Linux 内核版本 2.6.39-300.26.1.el6euk.x86-64,您可以尝试使用 GRUB 中的先前内核进行启动吗?
答案2
我认为应该是硬件问题,内存、CPU 等。首先尝试使用 memtest 从救援盘(CD 或 USB 盘)启动,然后测试几个小时。
如果你很幸运,你只需要更换内存,如果你不幸运...也许你必须更换主板、CPU、...