我们正在奔跑Ubuntu 11.04和2.6.38-13-通用Intel(R) 上的内核至强(R) CPU E5620 @ 2.40GHz,配备 48 GB RAM 专用服务器和硬件 RAID。
顶部命令输出显示许多内核线程在不同的核心上运行。
线程数
ksoftirqd - 16(每个核心一个)
工人 - 35
迁移 - 16 (每个核心一个)
我们已经经历过两次死机并被迫重启机器,这两次都是在我们修改.htaccess 并重新加载 apache 之后发生的。
在系统日志中,常规保护故障是记录的最后一条消息。
重启后,硬盘上的大部分数据都变成了 0 字节。重启后不久,2.5 Gb 的数据就变成了 30 Mb。:(
这是因为内核错误吗?内核网站2.6.38-13 未被列为稳定版本。这是否意味着我们需要从当前内核更改为任何稳定内核?如果是这样,我们应该选择哪个内核?
系统日志输出
这不是一个内核自旋锁案件
5 月 2 日 22:34:01 416831 CRON[19206]: (root) CMD (bash /home/admin/log-children)
5月2日 22:34:11 416831 内核:[3715446.033031] 一般保护故障:0000 [#1] SMP
5月2日 22:34:11 416831 内核:[3715446.054726] 最后一个 sysfs 文件:/sys/devices/system/cpu/cpu15/cache/index2/shared_cpu_map
5月2日 22:34:11 416831 内核:[3715446.097404] CPU 5
5月2日 22:34:11 416831 内核:[3715446.097869] 链接的模块:nf_conntrack_ipv6 nf_defrag_ipv6 ip6t_LOG xt_tcpudp ipt_REDIRECT xt_conntrack iptable_mangle nf_conntrack_ftp ipt_REJECT ipt_LOG xt_limit xt_multiport xt_state ip6table_filter ip6_tables iptable_nat nf_nat nf_conntrack_ipv4 nf_conntrack nf_defrag_ipv4 iptable_filter ip_tables x_tables vesafb snd_hda_intel snd_hda_codec psmouse ioatdma snd_hwdep i7core_edac ghes edac_core lp hed dca joydev snd_pcm serio_raw parport snd_timer snd soundcore snd_page_alloc usbhid hid e1000e
5月2日 22:34:11 416831内核:[3715446.279465]
5月2日 22:34:11 416831 内核:[3715446.303429] Pid:19118,通信:apache2 未受污染 2.6.38-13-generic #56-Ubuntu Supermicro X8DTL/X8DTL
5月2日 22:34:11 416831 内核:[3715446.355544] RIP:0010:[][] task_rq_lock+0x4a/0xa0
5月2日 22:34:11 416831 内核:[3715446.411635] RSP:0018:ffff88060b853da8 EFLAGS:00010082
5月2日 22:34:11 416831 内核:[3715446.440241] RAX:010021b86505c7ff RBX:0000000000013d00 RCX:00000001162d8937
5月2日 22:34:11 416831 内核:[3715446.497492] RDX:0000000000000282 RSI:ffff88060b853df0 RDI:00007fdac0088280
5月2日 22:34:11 416831内核:[3715446.559362] RBP:ffff88060b853dc8 R08:0000000000000040 R09:001fc00000000000
5月2日 22:34:11 416831 内核:[3715446.625144] R10:0000000000000000 R11:dead000000100100 R12:00007fdac0088280
5月2日 22:34:11 416831内核:[3715446.695569] R13:ffff88060b853df0 R14:0000000000013d00 R15:0000000000000005
5月2日 22:34:11 416831 内核:[3715446.770654] FS:00007fdac0023760(0000) GS:ffff880c3fc20000(0000) knlGS:00000000000000000
5月2日 22:34:11 416831 内核:[3715446.849786] CS:0010 DS:0000 ES:0000 CR0:0000000080050033
5月2日 22:34:11 416831内核:[3715446.889882] CR2:00007fdac187ca80 CR3:000000058cda1000 CR4:00000000000006e0
5月2日 22:34:11 416831 内核:[3715446.968627] DR0:0000000000000000 DR1:0000000000000000 DR2:00000000000000000
5月2日 22:34:11 416831 内核:[3715447.049676] DR3:0000000000000000 DR6:00000000ffff0ff0 DR7:0000000000000400
5月2日 22:34:11 416831 内核:[3715447.130842] 进程 apache2 (pid:19118,线程信息 ffff88060b852000,任务 ffff88058c11c4a0)
5月2日 22:34:11 416831 内核:[3715447.212160] 堆栈:
5月2日 22:34:11 416831 内核:[3715447.251311] 00007fdac0088280 ffff880be1ca5ec8 000000000000000f 00000000000000000
5月2日 22:34:11 416831 内核:[3715447.331017] ffff88060b853e28 ffffffff8105f2e1 0000000000000000 0000000081a4c270
5月2日 22:34:11 416831内核:[3715447.412179] ffff88060b853e38 0000000000000282 0000000000000021 ffff880b92505ec8
5月2日 22:34:11 416831 内核:[3715447.493302] 调用跟踪:
5月2日 22:34:11 416831 内核:[3715447.533014] [] try_to_wake_up+0x31/0x3e0
5月2日 22:34:11 416831内核:[3715447.573262] [] wake_up_process+0x15/0x20
5月2日 22:34:11 416831内核:[3715447.612669] [] wake_up_sem_queue_do+0x37/0x60
5月2日 22:34:11 416831内核:[3715447.651327] [] freeary+0x1c6/0x200
5月2日 22:34:11 416831内核:[3715447.689083] [] semctl_down.clone.5+0xbb/0x110
5月2日 22:34:11 416831 内核:[3715447.726360] [] ? sys_kill+0x7e/0x90
5月2日 22:34:11 416831 内核:[3715447.762833] [] ?fput+0x25/0x30
5月2日 22:34:11 416831内核:[3715447.798362] [] sys_semctl+0x7e/0xd0
5月2日 22:34:11 416831内核:[3715447.833126] [] system_call_fastpath+0x16/0x1b
5月2日 22:34:11 416831 内核:[3715447.867350] 代码:00 48 c7 c3 00 3d 01 00 49 89 fc 49 89 f5 9c 58 0f 1f 44 00 00 48 89 c2 fa 66 0f 1f 44 00 00 49 89 55 00 49 8b 44 24 08 49 89 de <8b> 40 18 4c 03 34 c5 80 c8 aa 81 4c 89 f7 e8 53 4e 57 00 49 8b
5月2日 22:34:11 416831 内核:[3715447.970388] RIP [] task_rq_lock+0x4a/0xa0
5月2日 22:34:11 416831 内核:[3715448.004042] RSP
5月2日 22:34:11 416831 内核:[3715448.083219] ---[结束跟踪 244a1ec2d6f912fa]---
5 月 2 日 22:35:01 416831 CRON[19243]: (root) CMD (bash /home/admin/log-children)
答案1
这听起来像是硬件错误。如今的 Linux 已经没有严重程度为“我重新加载了 Apache,我的服务器崩溃了,我丢失了数据”的错误了——您遇到了某种硬件问题。过热、RAM/CPU/主板/RAID 控制器/HDD 损坏/其他问题。
您的帖子收到几次差评的原因在于您的帖子缺乏细节。我们不可能猜出哪里出了问题(除了我猜测的 HW 问题)。
答案2
这不太可能是因为内核错误。正如 Janne 所说,硬件故障的可能性更大。最快的补救方法可能是更换故障硬件并重新安装/从备份中恢复数据。