内核恐慌硬件错误 - 哪个硬件负责?

内核恐慌硬件错误 - 哪个硬件负责?

我每隔一天都会遇到内核恐慌。下面是控制台照片的文字记录。如何确定导致问题的硬件? (或者是软件)

Ubuntu 12.04 LTS 服务器

[Hardware Error]: CPU:2   MC0_STATUS[-|UE|-|-|AddrV|UECC]: 0xb400200055000145
[Hardware Error]: MC0_ADDR: 0x0000000164fe77b0
[Hardware Error]: Data Cache Error: Data/Tag DWR error.
[Hardware Error]: cache level: L1, tx: DATA, mem-tx: DWR
[Hardware Error]: CPU:3 MC0_STATUS[-|UE|-|PCC|AddrV|CECC]: 0xb66b400000000135
[Hardware Error]: MC0_ADDR: 0x0000000164fe77b0
[Hardware Error]: Data Cache Error: Data/Tag DWD error.
[Hardware Error]: cache level: L1, tx: DATA, mem-tx: DRD
[Hardware Error]: CPU 3: Machine Check Exception: 4 Bank 0: b66b400000000135
[Hardware Error]: TSC bc02bd350de4 ADDR 164fe7bb0
[Hardware Error]: PROCESSOR 2:100f42 TIME 1378965147 SOCKET 0 APIC 3 microcode 10000c6
[Hardware Error]: CPU:3 MC0_STATUS[-|UE|-|PCC|AddrV|CECC]: 0xb66b400000000135
[Hardware Error]: MC0_ADDR: 0x0000000164fe77b0
[Hardware Error]: Data Cache Error: Data/Tag DWD error.
[Hardware Error]: cache level: L1, tx: DATA, mem-tx: DRD
[Hardware Error]: Machine Check: Invalid
Kernel panic - not syncing: Fatal machine check on current CPU
Shutting down cpus with NMI

这是我发现的一些附加日志记录:

kernel: [58495.948100] ------------[ cut here ]------------
kernel: [58495.948108] WARNING: at /build/buildd/linux-lts-quantal-3.5.0/net/sched/sch_generic.c:255 dev_watchdog+0x272/0x280()
kernel: [58495.948109] Hardware name: MS-7576
kernel: [58495.948110] NETDEV WATCHDOG: eth0 (r8169): transmit queue 0 timed out
kernel: [58495.948111] Modules linked in: nfsd nfs lockd fscache auth_rpcgss nfs_acl sunrpc xfs vesafb radeon ttm drm_kms_helper snd_hda_codec_hdmi snd_hda_codec_realtek snd_hda_intel drm snd_hda_codec wmi i2c_algo_bit snd_hwdep snd_pcm snd_timer snd soundcore snd_page_alloc lp shpchp r8169 sp5100_tco i2c_piix4 firewire_ohci parport firewire_core kvm_amd edac_core k10temp edac_mce_amd serio_raw kvm mac_hid microcode crc_itu_t raid10 raid456 async_pq async_xor xor async_memcpy async_raid6_recov raid6_pq async_tx raid1 raid0 multipath linear pata_atiixp
kernel: [58495.948136] Pid: 0, comm: swapper/3 Tainted: G   M         3.5.0-23-generic #35~precise1-Ubuntu
kernel: [58495.948137] Call Trace:
kernel: [58495.948138]  <IRQ>  [<ffffffff81052c9f>] warn_slowpath_common+0x7f/0xc0
kernel: [58495.948144]  [<ffffffff81052d96>] warn_slowpath_fmt+0x46/0x50
kernel: [58495.948146]  [<ffffffff815a05b2>] dev_watchdog+0x272/0x280
kernel: [58495.948149]  [<ffffffff8101be03>] ? native_sched_clock+0x13/0x80
kernel: [58495.948151]  [<ffffffff810702d0>] ? __queue_work+0x330/0x330
kernel: [58495.948153]  [<ffffffff815a0340>] ? pfifo_fast_dequeue+0xe0/0xe0
kernel: [58495.948154]  [<ffffffff815a0340>] ? pfifo_fast_dequeue+0xe0/0xe0
kernel: [58495.948156]  [<ffffffff81062ce6>] call_timer_fn+0x46/0x160
kernel: [58495.948158]  [<ffffffff815a0340>] ? pfifo_fast_dequeue+0xe0/0xe0
kernel: [58495.948159]  [<ffffffff81064632>] run_timer_softirq+0x132/0x2a0
kernel: [58495.948162]  [<ffffffff810a4105>] ? ktime_get+0x65/0xe0
kernel: [58495.948164]  [<ffffffff8105ba88>] __do_softirq+0xa8/0x210
kernel: [58495.948166]  [<ffffffff810ab264>] ? tick_program_event+0x24/0x30
kernel: [58495.948168]  [<ffffffff816a841c>] call_softirq+0x1c/0x30
kernel: [58495.948170]  [<ffffffff81016245>] do_softirq+0x65/0xa0
kernel: [58495.948172]  [<ffffffff8105be6e>] irq_exit+0x8e/0xb0
kernel: [58495.948174]  [<ffffffff816a8d5e>] smp_apic_timer_interrupt+0x6e/0x99
kernel: [58495.948176]  [<ffffffff816a7aca>] apic_timer_interrupt+0x6a/0x70
kernel: [58495.948177]  <EOI>  [<ffffffff8103ff56>] ? native_safe_halt+0x6/0x10
kernel: [58495.948180]  [<ffffffff8101c993>] default_idle+0x53/0x1f0
kernel: [58495.948182]  [<ffffffff8101d8a9>] cpu_idle+0xd9/0x120
kernel: [58495.948184]  [<ffffffff8167b237>] start_secondary+0xc3/0xc5
kernel: [58495.948185] ---[ end trace ef52dc6dad6ceea1 ]---    

# dmidecode -t 1 -t 3 -t 4 | egrep '(Manufacturer|Product|Serial|Socket|Version)'
Manufacturer: MICRO-STAR INTERNATIONAL CO.,LTD
Product Name: MS-7576
Version: 1.0
Serial Number: To Be Filled By O.E.M.
Manufacturer: MICRO-STAR INTERNATIONAL CO.,LTD
Version: 1.0
Serial Number: To Be Filled By O.E.M.
Socket Designation: CPU1
Manufacturer: AMD
Version: AMD Phenom(tm) II X4 B50 Processor
Serial Number: To Be Filled By O.E.M.

答案1

是的,这是一个硬件问题,主要是因为环形缓冲区输出显示,[Hardware Error].

我怀疑系统板、CPU 插槽或 CPU...

你有关于硬件的详细信息吗?下面的字符串报告什么?

dmidecode -t 1 -t 3 -t 4 | egrep '(Manufacturer|Product|Serial|Socket|Version)'

答案2

您似乎遇到了 RAM 错误。您可以通过运行 memtest86 来验证这一点。

另外,如果您安装了 mcelog 软件包,请检查 /var/log/mcelog 以获取更多信息。

我建议改用可以处理 ECC RAM 的服务器级主板。

答案3

我看到一个机器检查异常。这意味着 CPU 已检测到问题。

MCE 就像从缓存读取数据、看到 ECC 错误并重试一样简单。这类错误确实时不时会发生。 (这就是为什么CPU会重试有限次数的原因)。

在您的情况下,我们还看到:

Data Cache Error: Data/Tag DWR error.
cache level: L1, tx: DATA, mem-tx: DWR

这是第一级高速缓存(位于 CPU 核心旁边且位于同一芯片上)的错误。这不是主存储器的错误。

其余的转录本显示多个错误,其中一些错误类型相同,但并不总是具有相同的核心。此时我开始担心CPU出现故障。首先要检查CPU是否过热。

如何确定导致问题的硬件? (或者是软件)

MCE 错误通常是硬件错误。这似乎与您收到的错误相符。


如果您有备用 CPU,请尝试使用该 CPU。

如果没有,请确保系统适当冷却并监控一段时间内的温度。

如果您尚未安装,请安装麦克塞洛格并准备好这篇维基百科文章

答案4

我刚刚在 Dell XPS 420 Core2 Quad Q6600 上遇到此错误

这台机器以前的主人过去曾出现过一些呼吸问题,内部非常脏(吸烟者),并且会升温到随机重新启动的程度。我不确定这种情况持续了多久。

我进入 BIOS 并禁用了 CPU 上的 2 个核心,现在一切似乎都工作正常 - 似乎 CPU 已经过热到实际上烧坏了 2 个(或 1 个,因为我一次只能禁用 2 个)核心。

机器现在作为双核工作正常。

相关内容