Linux内核软锁nagios

Linux内核软锁nagios

过去几天我遇到过几次这种情况,有人知道是什么原因造成的吗?看起来与 nagios/smp/内存管理有关。似乎每 24 小时左右就会重复一次。

这是一个 debian 6 系统,具有来自 squeeze-proposed-updates 的最新 2.6.32 内核。

Jan 22 22:40:40 zzx-zzx kernel: [176617.649082] Pid: 2070, comm: nagios3 Not tainted (2.6.32-5-686-bigmem #1) System x3550 M3 -[7944D2M]-
Jan 22 22:40:40 zzx-zzx kernel: [176617.649085] EIP: 0060:[<c10249bb>] EFLAGS: 00000202 CPU: 13
Jan 22 22:40:40 zzx-zzx kernel: [176617.649094] EIP is at native_flush_tlb_others+0x85/0xa6
Jan 22 22:40:40 zzx-zzx kernel: [176617.649096] EAX: 00000282 EBX: c14661ac ECX: c10200d8 EDX: 00000020
Jan 22 22:40:40 zzx-zzx kernel: [176617.649099] ESI: 00000005 EDI: 00000140 EBP: c14661a0 ESP: ee4c9a3c
Jan 22 22:40:40 zzx-zzx kernel: [176617.649101]  DS: 007b ES: 007b FS: 00d8 GS: 00e0 SS: 0068
Jan 22 22:40:40 zzx-zzx kernel: [176617.649104] CR0: 8005003b CR2: b758a376 CR3: 2eb7e000 CR4: 000006f0
Jan 22 22:40:40 zzx-zzx kernel: [176617.649106] DR0: 00000000 DR1: 00000000 DR2: 00000000 DR3: 00000000
Jan 22 22:40:40 zzx-zzx kernel: [176617.649108] DR6: ffff0ff0 DR7: 00000400
Jan 22 22:40:40 zzx-zzx kernel: [176617.649110] Call Trace:
Jan 22 22:40:40 zzx-zzx kernel: [176617.649116]  [<c1024aa3>] ? flush_tlb_page+0x5d/0x65
Jan 22 22:40:40 zzx-zzx kernel: [176617.649120]  [<c1023e90>] ? ptep_set_access_flags+0x59/0x63
Jan 22 22:40:40 zzx-zzx kernel: [176617.649125]  [<c10a1040>] ? do_wp_page+0x3b9/0x7dd
Jan 22 22:40:40 zzx-zzx kernel: [176617.649131]  [<c1031770>] ? finish_task_switch+0x76/0x95
Jan 22 22:40:40 zzx-zzx kernel: [176617.649135]  [<c10b61a0>] ? kmem_cache_free+0x78/0xaf
Jan 22 22:40:40 zzx-zzx kernel: [176617.649138]  [<c1031770>] ? finish_task_switch+0x76/0x95

答案1

这是一个内核错误。您可以尝试将其作为错误报告提交到 Debian 的错误跟踪器,但他们可能只会告诉您尝试不同的内核。

我认为,除非您愿意花时间从源代码构建内核,否则您不太可能找出导致此问题的原因。我推测这是一个与 bigmem 相关的错误,因为在调用跟踪中存在“flush_tlb_page”。

您可以尝试运行 64 位,或者尝试从 Sid 反向移植内核。如果您在 Squeeze 中使用 64 位内核仍存在问题,Squeeze-backports 中还有一个新内核。

相关内容