我们的备份服务器经常出现以下问题。我将尝试解释该问题,希望有人能解释原因以及如何解决该问题。
设置详细信息
我们有一台 Dell R200 服务器,该服务器连接了 EasyRAID Q16R-S3R3 RAID 磁盘阵列。我们使用 LSI SAS2008 PCI 卡连接这两个组件(磁盘阵列和头节点)。在 EasyRAID 中,我们安装了八个磁盘,并绑定到一个逻辑磁盘。
在 R200 上,我们有以下磁盘配置:我们在 R200 服务器上创建 LVM,而不是在 EasyRAID 上
光伏系统 PV VG Fmt 属性 PSize PFree /dev/sdc vg0 lvm2 a- 5.46t 1.03t
root@backupserver:/home/netsys# vgs VG #PV #LV #SN 属性 VSize VFree vg0 1 9 0 wz--n- 5.46t 1.03t
root@backupserver:/home/netsys# lvs LV VG Attr LSize 原点 Snap% 移动日志复制% 转换 lv0vm vg0-wi-ao 1000.00g lv0vm2 vg0 -wi-a- 100.00g lv1data vg0-wi-ao 1000.00g lv1databackup vg0 -wi-ao 1000.00g lv1dataold20120903 vg0 -wi-a- 1000.00g lv2ceres vg0 -wi-ao 200.00g lv2ceresold20121022 vg0 -wi-a- 100.00克 lv3iso vg0-wi-ao 34.00g lv4svn vg0-wi-ao 100.00g
每天晚上 22 点左右,我们会在 lv1databackup 和 lv1data(包含快照)之间运行 Rsnapshot。现在,每次运行此设置后,日志中都会出现以下错误
5月20日 22:15:20 备份服务器内核:[11777489.404269] EXT3-fs 错误(设备 dm-8):ext3_lookup:已删除引用的 inode:60891438 5月20日 22:15:20 备份服务器内核:[11777489.406210] EXT3-fs 错误(设备 dm-8):ext3_lookup:已删除引用的 inode:60891429 5月20日 22:15:20 备份服务器内核:[11777489.407835] EXT3-fs 错误(设备 dm-8):ext3_lookup:已删除引用的 inode:60891431 5月20日 22:15:20 备份服务器内核:[11777489.409474] EXT3-fs 错误(设备 dm-8):ext3_lookup:已删除引用的 inode:60891430 5月20日 22:15:21 备份服务器内核:[11777489.422835] EXT3-fs 错误(设备 dm-8):ext3_lookup:已删除引用的 inode:60891523 5月20日 22:15:21 备份服务器内核:[11777489.424514] EXT3-fs 错误(设备 dm-8):ext3_lookup:已删除引用的 inode:60891533 5月20日 22:15:21 备份服务器内核:[11777489.426153] EXT3-fs 错误(设备 dm-8):ext3_lookup:已删除引用的 inode:60891524
运行 e2fsck 时,这些错误已修复,但 2 或 3 天后,这些错误又出现了。然后我们只能重新创建 LVM 并重新开始。现在这不是一个稳定的备份系统。
为什么我们会收到这些 EXT3-fs 错误以及我们的设置有什么问题?
以下是可能有帮助的额外信息。
rsnapshot 源上的 tune2fs
root@备份服务器:/home/netsys# tune2fs -l /dev/mapper/vg0-lv1databackup tune2fs 1.42(2011 年 11 月 29 日) 文件系统卷名: 最后安装于: 文件系统 UUID:c150d0c9-cc31-41ab-85a5-3d63b79d0076 文件系统魔数:0xEF53 文件系统修订号:1(动态) 文件系统功能:has_journal ext_attr resize_inode dir_index filetype needs_recovery sparse_super large_file 文件系统标志:signed_directory_hash 默认挂载选项:(无) 文件系统状态:干净 错误行为:继续 文件系统操作系统类型:Linux Inode 计数:65536000 区块数量:262144000 保留块数:0 空闲区块:143705208 可用 inode:64168616 第一个区块:0 区块大小:4096 片段大小:4096 保留的 GDT 块:961 每组块数:32768 每组碎片:32768 每组的 Inode 数:8192 每组的 Inode 块:512 RAID 步幅:128 RAID 条带宽度:128 文件系统创建时间:2012 年 9 月 6 日星期四 13:03:04 上次安装时间:2013 年 1 月 4 日星期五 17:49:01 最后写入时间:2013 年 1 月 4 日星期五 17:49:01 安装数量:6 最大挂载数量:27 最后检查时间:2012 年 12 月 12 日星期三 15:03:33 检查间隔:15552000(6个月) 下次检查时间:2013 年 6 月 10 日星期一 16:03:33 保留块 uid: 0 (用户 root) 保留块 gid:0(组根) 第一个 inode:11 Inode 大小:256 所需额外尺寸:28 所需额外尺寸:28 日志 inode:8 默认目录哈希:half_md4 目录哈希种子:911d0866-e924-4069-8ce5-c945fbb6ee27 日志备份:inode 块
在 rsnapshot 卷上执行 Tune2fs -l
root@backupserver:/home/netsys# tune2fs -l /dev/mapper/vg0-lv1data tune2fs 1.42(2011 年 11 月 29 日) 文件系统卷名: 最后安装于: 文件系统 UUID:c91740f4-17df-4518-9ef1-ba36b7820870 文件系统魔数:0xEF53 文件系统修订号:1(动态) 文件系统功能:has_journal ext_attr resize_inode dir_index filetype needs_recovery sparse_super large_file 文件系统标志:signed_directory_hash 默认挂载选项:(无) 文件系统状态:清除错误 错误行为:继续 文件系统操作系统类型:Linux Inode 计数:65536000 区块数量:262144000 保留块数:0 空闲区块:127616425 空闲 inode:63661979 第一个区块:0 区块大小:4096 片段大小:4096 保留的 GDT 块:961 每组块数:32768 每组碎片:32768 每组的 Inode 数:8192 每组的 Inode 块:512 RAID 步幅:128 RAID 条带宽度:128 文件系统创建时间:2012 年 9 月 4 日星期二 14:20:00 上次安装时间:2013 年 4 月 29 日星期一 16:49:09 最后撰写时间:2013 年 5 月 21 日星期二 06:52:48 安装数量:1 最大挂载数量:23 最后检查时间:2013 年 4 月 29 日星期一 10:18:08 检查间隔:15552000(6个月) 下次检查时间:2013 年 10 月 26 日星期六 10:18:08 保留块 uid: 0 (用户 root) 保留块 gid:0(组根) 第一个 inode:11 Inode 大小:256 所需额外尺寸:28 所需额外尺寸:28 日志 inode:8 默认目录哈希:half_md4 目录哈希种子:74faab9b-739f-47dd-ba48-059e5b06829a 日志备份:inode 块
rsnapshot 卷上的 Inode 使用情况
root@备份服务器:/home/netsys# df -i /mnt/lv1data/ 文件系统 Inodes IUsed IFree IUse% 挂载于 /dev/mapper/vg0-lv1数据 65536000 1874021 63661979 3% /mnt/lv1数据
LSI SAS2008 驱动程序上的 modinfo
root@backupserver:/home/netsys# modinfo mpt2sas 文件名:/lib/modules/3.2.0-23-generic/kernel/drivers/scsi/mpt2sas/mpt2sas.ko 版本:10.100.00.00 许可证:GPL 描述:LSI MPT Fusion SAS 2.0 设备驱动程序 作者:LSI 公司 源版本:C1D4E89BF318C53971B5113 别名:pci:v00001000d0000007Esv*sd*bc*sc*i* 别名:pci:v00001000d0000006Esv*sd*bc*sc*i* 别名:pci:v00001000d00000087sv*sd*bc*sc*i* 别名:pci:v00001000d00000086sv*sd*bc*sc*i* 别名:pci:v00001000d00000085sv*sd*bc*sc*i* 别名:pci:v00001000d00000084sv*sd*bc*sc*i* 别名:pci:v00001000d00000083sv*sd*bc*sc*i* 别名:pci:v00001000d00000082sv*sd*bc*sc*i* 别名:pci:v00001000d00000081sv*sd*bc*sc*i* 别名:pci:v00001000d00000080sv*sd*bc*sc*i* 别名:pci:v00001000d00000065sv*sd*bc*sc*i* 别名:pci:v00001000d00000064sv*sd*bc*sc*i* 别名:pci:v00001000d00000077sv*sd*bc*sc*i* 别名:pci:v00001000d00000076sv*sd*bc*sc*i* 别名:pci:v00001000d00000074sv*sd*bc*sc*i* 别名:pci:v00001000d00000072sv*sd*bc*sc*i* 别名:pci:v00001000d00000070sv*sd*bc*sc*i* 取决于: scsi_transport_sas,raid_class 入口:Y vermagic:3.2.0-23-通用 SMP mod_unload modversions parm:logging_level:用于启用附加日志信息的位(默认值 = 0) 参数:max_sectors:最大扇区数,范围 64 到 8192,默认值为 8192(ushort) 参数:max_lun:最大 lun,默认值=16895(int) 参数:max_queue_depth:最大控制器队列深度(int) 参数:max_sgl_entries:最大 sg 条目数(int) parm:msix_disable:禁用 msix 路由中断(默认值=0)(int) parm:missing_delay:设备缺失延迟,io缺失延迟(int数组) 参数:mpt2sas_fwfault_debug:启用固件故障检测并停止固件 - (默认值 = 0) 参数:disable_discovery:禁用发现(int) 参数:diag_buffer_enable:后诊断缓冲区(TRACE=1/SNAPSHOT=2/EXTENDED=4/default=0)(int)
内核版本
root@backupserver:/home/netsys# uname -a Linux 备份服务器 3.2.0-23-通用 #36-Ubuntu SMP 2012 年 4 月 10 日星期二 20:39:51 UTC x86_64 x86_64 x86_64 GNU/Linux
版本
root@backupserver:/home/netsys# cat /etc/issue Ubuntu 12.04 LTS
我们不使用多路径...