几个月前,我在 ebay 上买了一张二手 3ware 磁盘阵列卡,并在 RAID5 中设置了四个 1TB 的 caviar blacks。如果没有写入缓存,硬件磁盘阵列只能处理大约 5MB/s 的写入,而且我没有 UPS,因此保持写入缓存开启似乎不是一个好主意。因此,我从工作单位借了一个备用的 2TB 驱动器,将我的数据复制到该驱动器上,然后在全新安装的 Debian 6 上设置 mdadm 磁盘阵列。这运行良好*大约两周,然后我开始收到读取错误。mdadm 说两个驱动器发生故障。因此,我将其关闭,启动到 debian 安装程序并开始读取系统日志。
我首先看到的是这样的:
5 月 18 日 10:31:14 osiris 内核:[937288.579972] kswapd0:页面分配失败。顺序:5,模式:0x4020 5 月 18 日 10:31:14 osiris 内核:[937288.579978] Pid:47,通信:kswapd0 未受污染 2.6.32-5-686 #1 5月18日 10:31:14 osiris 内核:[937288.579981] 调用跟踪: 5月18日 10:31:14 osiris 内核:[937288.579994] [] ?__alloc_pages_nodemask+0x484/0x4d9 5月18日 10:31:14 osiris 内核:[937288.580000] [] ? __get_free_pages+0xc/0x17 5月18日 10:31:14 osiris 内核:[937288.580037] [] ? __kmalloc+0x30/0x128 5月18日 10:31:14 osiris 内核:[937288.580049] [] ? pskb_expand_head+0x4f/0x157 5月18日 10:31:14 osiris 内核:[937288.580059] [] ? __pskb_pull_tail+0x3f/0x1fb 5月18日 10:31:14 osiris 内核:[937288.580071] [] ? sock_wfree+0x17/0x4b 5月18日 10:31:14 osiris 内核:[937288.580084] [] ? dev_queue_xmit+0xe4/0x38e 5月18日 10:31:14 osiris 内核:[937288.580096] [] ?neigh_resolve_output+0x1df/0x227 5月18日 10:31:14 osiris 内核:[937288.580109] [] ?ip_finish_output2+0x187/0x1c2 5月18日 10:31:14 osiris 内核:[937288.580121] [] ?ip_local_out+0x15/0x17 5月18日 10:31:14 osiris 内核:[937288.580132] [] ?ip_queue_xmit+0x31d/0x378 5月18日 10:31:14 osiris 内核:[937288.580145] [] ?bictcp_cong_avoid+0x14/0x2c9 5月18日 10:31:14 osiris 内核:[937288.580157] [] ? tcp_write_xmit+0x3e7/0x874 5月18日 10:31:14 osiris 内核:[937288.580167] [] ? tcp_ack+0x1611/0x1802 5月18日 10:31:14 osiris 内核:[937288.580178] [] ? tcp_transmit_skb+0x595/0x5cc 5月18日 10:31:14 osiris 内核:[937288.580189] [] ? tcp_write_xmit+0x7a3/0x874 5月18日 10:31:14 osiris 内核:[937288.580200] [] ? tcp_ack+0x1611/0x1802 5月18日 10:31:14 osiris 内核:[937288.580210] [] ? tcp_established_options+0x1d/0x8b 5月18日 10:31:14 osiris 内核:[937288.580221] [] ?tcp_current_mss+0x38/0x53 5月18日 10:31:14 osiris 内核:[937288.580232] [] ? __tcp_push_pending_frames+0x1e/0x50 5月18日 10:31:14 osiris 内核:[937288.580243] [] ? tcp_data_snd_check+0x1b/0xd2 5月18日 10:31:14 osiris 内核:[937288.580254] [] ? tcp_rcv_established+0xd2/0x626 5月18日 10:31:14 osiris 内核:[937288.580266] [] ? tcp_v4_do_rcv+0x15f/0x2cf 5月18日 10:31:14 osiris 内核:[937288.580276] [] ? tcp_v4_rcv+0x3d2/0x602 5月18日 10:31:14 osiris 内核:[937288.580288] [] ?ip_local_deliver_finish+0x10c/0x18c 5月18日 10:31:14 osiris 内核:[937288.580299] [] ?ip_rcv_finish+0x2c4/0x2d8 5月18日 10:31:14 osiris 内核:[937288.580310] [] ? netif_receive_skb+0x3bb/0x3d6 5月18日 10:31:14 osiris 内核:[937288.580340] [] ? e1000_clean_jumbo_rx_irq+0x4f8/0x5bb [e1000] 5月18日 10:31:14 osiris 内核:[937288.580356] [] ? e1000_clean+0x29f/0x40d [e1000] 5月18日 10:31:14 osiris 内核:[937288.580370] [] ? e1000_clean_jumbo_rx_irq+0x579/0x5bb [e1000] 5月18日 10:31:14 osiris 内核:[937288.580382] [] ?net_rx_action+0x96/0x194 5月18日 10:31:14 osiris 内核:[937288.580395] [] ? __do_softirq+0xaa/0x156 5月18日 10:31:14 osiris 内核:[937288.580406] [] ?do_softirq+0x31/0x3c 5月18日 10:31:14 osiris 内核:[937288.580416] [] ?irq_exit+0x26/0x58 5月18日 10:31:14 osiris 内核:[937288.580429] [] ?do_IRQ+0x78/0x89 5月18日 10:31:14 osiris 内核:[937288.580440] [] ? common_interrupt+0x30/0x38 5月18日 10:31:14 osiris 内核:[937288.580452] [] ? free_hot_cold_page+0x182/0x1a3 5月18日 10:31:14 osiris 内核:[937288.580463] [] ? __pagevec_free+0x4e/0x58 5月18日 10:31:14 osiris 内核:[937288.580473] [] ?release_pages+0xe7/0x124 5月18日 10:31:14 osiris 内核:[937288.580484] [] ? __pagevec_release+0x15/0x1d 5月18日 10:31:14 osiris 内核:[937288.580495] [] ?invalidate_mapping_pages+0x6a/0x98 5月18日 10:31:14 osiris 内核:[937288.580505] [] ? shrink_icache_memory+0xd7/0x1d3 5月18日 10:31:14 osiris 内核:[937288.580515] [] ? shrink_slab+0xe6/0x13f 5月18日 10:31:14 osiris 内核:[937288.580525] [] ?kswapd+0x3d8/0x54f 5月18日 10:31:14 osiris 内核:[937288.580536] [] ?isolate_pages_global+0x0/0x1bc 5月18日 10:31:14 osiris 内核:[937288.580550] [] ?autoremove_wake_function+0x0/0x2d 5月18日 10:31:14 osiris 内核:[937288.580564] [] ? 完成+0x28/0x36 5月18日 10:31:14 osiris 内核:[937288.580574] [] ?kswapd+0x0/0x54f 5月18日 10:31:14 osiris 内核:[937288.580584] [] ?kthread+0x61/0x66 5月18日 10:31:14 osiris 内核:[937288.580595] [] ?kthread+0x0/0x66 5月18日 10:31:14 osiris 内核:[937288.580606] [] ? kernel_thread_helper+0x7/0x10 5月18日 10:31:14 osiris 内核:[937288.580612] 内存信息: 5月18日 10:31:14 osiris 内核:[937288.580618] 每 CPU DMA: 5月18日 10:31:14 osiris 内核:[937288.580625] CPU 0:hi:0,btch:1 usd:0 5月18日 10:31:14 osiris 内核:[937288.580632] CPU 1:hi:0,btch:1 usd:0 5月18日 10:31:14 osiris 内核:[937288.580639] CPU 2:hi:0,btch:1 usd:0 5月18日 10:31:14 osiris 内核:[937288.580647] CPU 3:hi:0,btch:1 usd:0 5月18日 10:31:14 osiris 内核:[937288.580654] 每个 CPU 正常: 5月18日 10:31:14 osiris 内核:[937288.580660] CPU 0:hi:186,btch:31 usd:157 5月18日 10:31:14 osiris 内核:[937288.580668] CPU 1:hi:186,btch:31 usd:93 5月18日 10:31:14 osiris 内核:[937288.580676] CPU 2:hi:186,btch:31 usd:91 5月18日 10:31:14 osiris 内核:[937288.580683] CPU 3:hi:186,btch:31 usd:167 5月18日 10:31:14 osiris 内核:[937288.580690] 每个 CPU 的 HighMem: 5月18日 10:31:14 osiris 内核:[937288.580697] CPU 0:hi:186,btch:31 usd:155 5月18日 10:31:14 osiris 内核:[937288.580704] CPU 1:hi:186,btch:31 usd:173 5月18日 10:31:14 osiris 内核:[937288.580711] CPU 2:hi:186,btch:31 美元:85 5月18日 10:31:14 osiris 内核:[937288.580718] CPU 3:hi:186,btch:31 usd:165 5月18日 10:31:14 osiris 内核:[937288.580730] active_anon:22503 inactive_anon:10669isolated_anon:0 5月18日 10:31:14 osiris 内核:[937288.580733] active_file:25150 inactive_file:287773isolated_file:0 5月18日 10:31:14 osiris 内核:[937288.580737] 不可驱逐:0 脏:0 写回:52 不稳定:0 5月18日 10:31:14 osiris 内核:[937288.580741] 空闲:20455 slab_reclaimable:8509 slab_unreclaimable:7454 5 月 18 日 10:31:14 osiris 内核:[937288.580744] 映射:5500 shmem:1407 页表:627 跳出:0 5 月 18 日 10:31:14 osiris 内核:[937288.580759] DMA 可用:3588kB 最小:64kB 低:80kB 高:96kB active_anon:0kB inactive_anon:0kB active_file:1116kB inactive_file:288kB unevictable:0kB 隔离(匿名):0kB 隔离(文件):0kB 存在:15784kB mlocked:0kB dirty:0kB writeback:0kB 映射:0kB shmem:0kB slab_reclaimable:176kB slab_unreclaimable:528kB kernel_stack:0kB pagetables:0kB 不稳定:0kB bounce:0kB writeback_tmp:0kB pages_scanned:0 all_unreclaimable?否 5月18日 10:31:14 osiris 内核:[937288.580781] lowmem_reserve[]: 0 861 2015 2015 5 月 18 日 10:31:14 osiris 内核:[937288.580810] 正常 空闲:42680kB 最小:3720kB 低:4648kB 高:5580kB active_anon:12kB inactive_anon:780kB active_file:46720kB inactive_file:188384kB 不可驱逐:0kB 隔离(匿名):0kB 隔离(文件):0kB 存在:881880kB mlocked:0kB 脏:0kB 回写:0kB 映射:76kB shmem:0kB slab_reclaimable:33860kB slab_unreclaimable:29288kB kernel_stack:1408kB 页表:124kB 不稳定:0kB 反弹:0kB writeback_tmp:0kB pages_scanned:0 all_unreclaimable?否 5月18日 10:31:14 osiris 内核:[937288.580833] lowmem_reserve[]: 0 0 9234 9234 5 月 18 日 10:31:14 osiris 内核:[937288.580862] HighMem 可用:35552kB 最小:512kB 低:1756kB 高:3004kB active_anon:90000kB inactive_anon:41896kB active_file:52764kB inactive_file:962420kB unevictable:0kB 隔离(匿名):0kB 隔离(文件):0kB 存在:1182056kB mlocked:0kB 脏:0kB 回写:208kB 映射:21924kB shmem:5628kB slab_reclaimable:0kB slab_unreclaimable:0kB kernel_stack:0kB 页表:2384kB 不稳定:0kB 反弹:0kB writeback_tmp:0kB pages_scanned:0 all_unreclaimable?否 5月18日 10:31:14 osiris 内核:[937288.580885] lowmem_reserve[]: 0 0 0 0 5月18日 10:31:14 osiris 内核:[937288.580908] DMA:13*4kB 4*8kB 13*16kB 1*32kB 1*64kB 1*128kB 2*256kB 1*512kB 0*1024kB 1*2048kB 0*4096kB = 3588kB 5月18日 10:31:14 osiris 内核:[937288.580956] 正常:8286*4kB 356*8kB 85*16kB 160*32kB 2*64kB 0*128kB 0*256kB 0*512kB 0*1024kB 0*2048kB 0*4096kB = 42600kB 5月18日 10:31:14 osiris 内核:[937288.581007] HighMem:1248*4kB 2476*8kB 620*16kB 8*32kB 5*64kB 0*128kB 1*256kB 0*512kB 0*1024kB 0*2048kB 0*4096kB = 35552kB 5 月 18 日 10:31:14 osiris 内核:[937288.581062] 共 315224 个页面缓存页面 5 月 18 日 10:31:14 osiris 内核:[937288.581068] 交换缓存中有 947 个页面 5 月 18 日 10:31:14 osiris 内核:[937288.581075] 交换缓存统计信息:添加 7675,删除 6728,查找 14833/15430 5月18日 10:31:14 osiris 内核:[937288.581082] 可用交换 = 3900340kB 5月18日 10:31:14 osiris 内核:[937288.581089] 总交换空间 = 3905528kB 5月18日 10:31:14 osiris 内核:[937288.594263] 524144 页 RAM 5月18日 10:31:14 osiris 内核:[937288.594268] 297858 页 HighMem 5月18日 10:31:14 osiris 内核:[937288.594270] 保留 5625 页 5月18日 10:31:14 osiris kernel: [937288.594272] 共享了 123757 个页面 5月18日 10:31:14 osiris 内核:[937288.594275] 454801 个页面未共享
看起来这可能只是一个内核错误,并没有真正造成任何问题。
下一个值得注意的事件是:
5月18日 13:13:03 osiris 内核:[946997.132469] ata4:异常 Emask 0x10 SAct 0x0 SErr 0x10000 操作 0xe 冻结 5月18日 13:13:03 osiris 内核:[946997.132507] ata4:SError:{PHYRdyChg} 5月18日 13:13:03 osiris 内核:[946997.132536] ata4:硬重置链接 5月18日 13:13:06 osiris 内核:[947000.544016] ata4:COMRESET 失败(errno=-19) 5月18日 13:13:06 osiris 内核:[947000.544044] ata4:重置失败(errno=-19),7 秒后重试 5 月 18 日 13:13:08 osiris 内核:[947002.255353] 3w-9xxx:scsi0:AEN:警告(0x04:0x0019):驱动器已移除:端口=2。 5 月 18 日 13:13:08 osiris 内核:[947002.255525] 3w-9xxx:scsi0:AEN:警告(0x04:0x0019):驱动器已移除:端口=3。 5月18日 13:13:13 osiris 内核:[947007.132027] ata4:硬重置链接 5 月 18 日 13:13:18 osiris 内核:[947012.040156] 3w-9xxx:scsi0:AEN:INFO(0x04:0x001A):驱动器已插入:端口=3。 5月18日 13:13:19 osiris内核:[947012.896015] ata4:链接响应较慢,请耐心等待(ready=-19) 5 月 18 日 13:13:20 osiris 内核:[947013.913066] 3w-9xxx:scsi0:AEN:INFO(0x04:0x001A):驱动器已插入:端口=2。 5月18日 13:13:20 osiris 内核:[947014.352032] ata4:SATA 链接速度达到 1.5 Gbps (SStatus 113 SControl 310) 5月18日 13:13:20 osiris 内核:[947014.377670] ata4.00:已配置为 UDMA/100 5月18日 13:13:20 osiris 内核:[947014.377680] ata4:EH 完成
当时没有人实际接触过这台机器,因此我将其解释为控制器出现故障——考虑到它相对较旧且是二手的,这可以理解。
我连夜弄了一个新的控制器,第二天就安装好了。SMART 报告称所有驱动器均无错误,所有简短测试均通过,因此我执行了mdadm --assemble --force
,清除了所有驱动器的故障标志并顺利启动了阵列。fsck 表示文件系统是干净的,安装时没有问题。
于是我说“太棒了!”然后重启。机器直接跳转到网络启动屏幕,似乎忽略了可启动硬盘。(请注意,/boot 不在 mdadm 阵列上 - 阵列只有 /home)。
这就是我被困住的地方。我不知道为什么 bios 不想从这个驱动器启动。没有 grub,什么都没有。在安装程序的 chrooted 环境中拥有一个功能齐全的系统,然后却无法启动它,这真是令人沮丧。