我在 cron 中启用了 rsync,每次 rsync 结束后我都会收到电子邮件
这是 mdadm 自动生成的邮件消息 在 titan707 上运行 在 md 设备 /dev/md/2 上检测到了 DegradedArray 事件。 您忠实的,等等。 PS /proc/mdstat 文件当前包含以下内容: 个性:[线性] [多路径] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10] md1 :活动 raid1 sdb3[1] sda3[0] 7995840 块超级 1.2 [2/2] [UU] md0 :活动 raid1 sdb2[1](F) sda2[0] 499712 块超级 1.2 [2/1] [U_] md2 :活动 raid1 sdb4[1](F) sda4[0] 968130304 块超级 1.2 [2/1] [U_] 未使用的设备:
但后来 smartctl 和 mdadmin 没有显示任何问题,请参阅下面来自 mdadm、smartctl 的日志。
$ cat /proc/mdstat 个性:[raid0] [raid1] [raid6] [raid5] [raid4] [raid10] [线性] [多路径] md0 :活动 raid1 sda1[0] sdb1[1] 33553336 块超级 1.2 [2/2] [UU] md1 :活动 raid1 sdb2[1] sda2[0] 524276 块超级 1.2 [2/2] [UU] md3 :活动 raid1 sdb4[1] sda4[0] 1822442815 块超级 1.2 [2/2] [UU] md2 :活动 raid1 sdb3[1] sda3[0] 1073740664 块超级 1.2 [2/2] [UU] 未使用的设备: $ smartctl -a /dev/sda smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-24-generic](本地构建) 版权所有 (C) 2002-11 Bruce Allen,http://smartmontools.sourceforge.net === 信息部分开始 === 型号系列:Seagate Barracuda XT 设备型号:ST33000651AS 序列号:Z291E1TG LU WWN 设备 ID:5 000c50 03f2f8fbc 固件版本:CC45 用户容量:3,000,592,982,016 字节 [3.00 TB] 扇区大小:512 字节逻辑/物理 设备位于:在 smartctl 数据库中 [有关详细信息,请使用:-P show] ATA 版本为:8 ATA 标准为:ATA-8-ACS 修订版 4 当地时间是: 周三 三月 19 09:20:26 2014 CET SMART 支持:可用 - 设备具有 SMART 功能。 SMART 支持:已启用 === 开始读取智能数据部分 === SMART 整体健康自我评估测试结果:通过 一般 SMART 值: 离线数据收集状态:(0x82)离线数据收集活动 已顺利完成。 自动离线数据收集:已启用。 自检执行状态:(0)上一次自检程序已完成 没有错误或没有自检过 已运行。 完成离线的总时间 数据收集:(600)秒。 离线数据收集 功能:(0x7b)SMART 立即执行离线。 支持自动离线数据收集开启/关闭。 暂停离线收集新 命令。 支持离线表面扫描。 支持自我测试。 支持运输自检。 支持选择性自我测试。 SMART 功能:(0x0003)输入前保存 SMART 数据 省电模式。 支持 SMART 自动保存定时器。 错误日志记录功能:(0x01)支持错误日志记录。 支持通用日志记录。 简短的自检程序 建议投票时间:(1)分钟。 扩展自检程序 建议轮询时间:(255)分钟。 运输自检程序 建议投票时间:(2)分钟。 SCT 功能:(0x103f)支持 SCT 状态。 支持SCT错误恢复控制。 支持 SCT 功能控制。 支持SCT数据表。 SMART 属性数据结构修订号:10 供应商特定的 SMART 属性及阈值: ID# ATTRIBUTE_NAME 标志值 最差阈值类型 已更新 WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 117 099 006 预失败始终 - 152015022 3 Spin_Up_Time 0x0003 094 094 000 始终预故障 - 0 4 Start_Stop_Count 0x0032 100 100 020 Old_age 始终 - 6 5 Reallocated_Sector_Ct 0x0033 100 100 036 预故障始终 - 0 7 Seek_Error_Rate 0x000f 075 060 030 始终预失败 - 40795438 9 通电时间 0x0032 077 077 000 老化时间 始终 - 20281 10 Spin_Retry_Count 0x0013 100 100 097 预失败始终 - 0 12 Power_Cycle_Count 0x0032 100 100 020 Old_age 始终 - 6 183 Runtime_Bad_Block 0x0032 100 100 000 Old_age 始终 - 0 184 端到端错误 0x0032 100 100 099 Old_age 始终 - 0 187 Reported_Uncorrect 0x0032 100 100 000 Old_age 始终 - 0 188 命令超时 0x0032 100 100 000 Old_age 始终 - 0 189 High_Fly_Writes 0x003a 100 100 000 Old_age 始终 - 0 190 Airflow_Temperature_Cel 0x0022 053 046 045 Old_age 始终 - 47(最小/最大 43/54) 191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age 始终 - 0 192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age 始终 - 4 193 Load_Cycle_Count 0x0032 100 100 000 Old_age 始终 - 6 194 温度_摄氏度 0x0022 047 054 000 Old_age 始终 - 47 (0 23 0 0) 195 Hardware_ECC_Recovered 0x001a 021 003 000 Old_age 始终 - 152015022 197 Current_Pending_Sector 0x0012 100 100 000 Old_age 始终 - 0 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age 离线 - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age 始终 - 0 240 Head_Flying_Hours 0x0000 100 253 000 Old_age 离线 - 253145372446521 241 Total_LBAs_Written 0x0000 100 253 000 Old_age 离线 - 2852285811 242 Total_LBAs_Read 0x0000 100 253 000 Old_age 离线 - 811308464 SMART 错误日志版本:1 未记录任何错误 SMART 自检日志结构修订号 1 编号 测试描述 状态 剩余寿命(小时) LBA_of_first_error # 1 扩展离线 无错误完成 00% 20193 - # 2 短暂离线 无错误完成 00% 20185 - # 3 扩展离线 无错误完成 00% 5723 - SMART 选择性自检日志数据结构修订号 1 跨度 最小 LBA 最大 LBA 当前测试状态 1 0 0 未测试 2 0 0 未测试 3 0 0 未测试 4 0 0 未测试 5 0 0 未测试 选择性自检标志(0x0): 扫描选定的范围后,请勿读取扫描磁盘的剩余部分。 如果开机时选择性自检正在等待,则在 0 分钟延迟后恢复。 $ smartctl -a /dev/sdb smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-24-generic](本地构建) 版权所有 (C) 2002-11 Bruce Allen,http://smartmontools.sourceforge.net === 信息部分开始 === 型号系列:Seagate Barracuda XT 设备型号:ST33000651AS 序列号:Z2917JDM LU WWN 设备 ID:5 000c50 03f1b6146 固件版本:CC45 用户容量:3,000,592,982,016 字节 [3.00 TB] 扇区大小:512 字节逻辑/物理 设备位于:在 smartctl 数据库中 [有关详细信息,请使用:-P show] ATA 版本为:8 ATA 标准为:ATA-8-ACS 修订版 4 当地时间是: 2014 年 3 月 19 日星期三 09:20:53 CET SMART 支持:可用 - 设备具有 SMART 功能。 SMART 支持:已启用 === 开始读取智能数据部分 === SMART 整体健康自我评估测试结果:通过 一般 SMART 值: 离线数据收集状态:(0x82)离线数据收集活动 已顺利完成。 自动离线数据收集:已启用。 自检执行状态:(0)上一次自检程序已完成 没有错误或没有自检过 已运行。 完成离线的总时间 数据收集:(609)秒。 离线数据收集 功能:(0x7b)SMART 立即执行离线。 支持自动离线数据收集开启/关闭。 暂停离线收集新 命令。 支持离线表面扫描。 支持自我测试。 支持运输自检。 支持选择性自我测试。 SMART 功能:(0x0003)输入前保存 SMART 数据 省电模式。 支持 SMART 自动保存定时器。 错误日志记录功能:(0x01)支持错误日志记录。 支持通用日志记录。 简短的自检程序 建议投票时间:(1)分钟。 扩展自检程序 建议轮询时间:(255)分钟。 运输自检程序 建议投票时间:(2)分钟。 SCT 功能:(0x103f)支持 SCT 状态。 支持SCT错误恢复控制。 支持 SCT 功能控制。 支持SCT数据表。 SMART 属性数据结构修订号:10 供应商特定的 SMART 属性及阈值: ID# ATTRIBUTE_NAME 标志值 最差阈值类型 已更新 WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 117 099 006 始终预失败 - 144398334 3 Spin_Up_Time 0x0003 094 094 000 始终预故障 - 0 4 Start_Stop_Count 0x0032 100 100 020 Old_age 始终 - 6 5 Reallocated_Sector_Ct 0x0033 100 100 036 预故障始终 - 0 7 Seek_Error_Rate 0x000f 075 060 030 始终预失败 - 41707682 9 通电时间 0x0032 077 077 000 老化时间 始终 - 20281 10 Spin_Retry_Count 0x0013 100 100 097 预失败始终 - 0 12 Power_Cycle_Count 0x0032 100 100 020 Old_age 始终 - 6 183 Runtime_Bad_Block 0x0032 100 100 000 Old_age 始终 - 0 184 端到端错误 0x0032 100 100 099 Old_age 始终 - 0 187 Reported_Uncorrect 0x0032 100 100 000 Old_age 始终 - 0 188 命令超时 0x0032 100 100 000 Old_age 始终 - 0 189 High_Fly_Writes 0x003a 100 100 000 Old_age 始终 - 0 190 Airflow_Temperature_Cel 0x0022 057 049 045 Old_age 始终 - 43(最小/最大 39/51) 191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age 始终 - 0 192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age 始终 - 4 193 Load_Cycle_Count 0x0032 100 100 000 Old_age 始终 - 6 194 温度_摄氏度 0x0022 043 051 000 Old_age 始终 - 43 (0 23 0 0) 195 Hardware_ECC_Recovered 0x001a 021 003 000 Old_age 始终 - 144398334 197 Current_Pending_Sector 0x0012 100 100 000 Old_age 始终 - 0 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age 离线 - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age 始终 - 0 240 Head_Flying_Hours 0x0000 100 253 000 Old_age 离线 - 38959648362297 241 Total_LBAs_Written 0x0000 100 253 000 Old_age 离线 - 162809159 242 Total_LBAs_Read 0x0000 100 253 000 Old_age 离线 - 1526676264 SMART 错误日志版本:1 未记录任何错误 SMART 自检日志结构修订号 1 编号 测试描述 状态 剩余寿命(小时) LBA_of_first_error # 1 扩展离线 无错误完成 00% 20218 - # 2 短暂离线 无错误完成 00% 20185 - # 3 扩展离线 无错误完成 00% 5723 - SMART 选择性自检日志数据结构修订号 1 跨度 最小 LBA 最大 LBA 当前测试状态 1 0 0 未测试 2 0 0 未测试 3 0 0 未测试 4 0 0 未测试 5 0 0 未测试 选择性自检标志(0x0): 扫描选定的范围后,请勿读取扫描磁盘的剩余部分。 如果开机时选择性自检正在等待,则在 0 分钟延迟后恢复。 $ $ mdadm -D /dev/md0 /dev/md0: 版本:1.2 创建时间:2012 年 7 月 27 日星期五 13:40:57 突袭级别:raid1 数组大小:33553336(32.00 GiB 34.36 GB) 已使用设备大小:33553336 (32.00 GiB 34.36 GB) 突袭设备:2 设备总数:2 持久性:超级块是持久的 更新时间:2014年3月17日星期一12:24:57 状态:干净 活跃设备:2 工作装置:2 故障设备:0 备用设备:0 姓名:救援:0 UUID:28ad38a2:f3df9bbc:2f1f4d98:2006ce16 活动:22 编号 主要 次要 RaidDevice 状态 0 8 1 0 活动同步 /dev/sda1 1 8 17 1 活动同步 /dev/sdb1 $ mdadm -D /dev/md1 /dev/md1: 版本:1.2 创建时间:2012 年 7 月 27 日星期五 13:40:57 突袭级别:raid1 数组大小:524276(512.07 MiB 536.86 MB) 使用的开发大小:524276 (512.07 MiB 536.86 MB) 突袭设备:2 设备总数:2 持久性:超级块是持久的 更新时间:2014年3月19日星期三06:25:43 状态:干净 活跃设备:2 工作装置:2 故障设备:0 备用设备:0 姓名:rescue:1 UUID:659022e1:e93cfcb9:c7b533ae:5a81c83b 活动:25 编号 主要 次要 RaidDevice 状态 0 8 2 0 活动同步 /dev/sda2 1 8 18 1 活动同步 /dev/sdb2 $ mdadm -D /dev/md2 /dev/md2: 版本:1.2 创建时间:2012 年 7 月 27 日星期五 13:40:58 突袭级别:raid1 数组大小:1073740664(1024.00 GiB 1099.51 GB) 已使用设备大小:1073740664 (1024.00 GiB 1099.51 GB) 突袭设备:2 设备总数:2 持久性:超级块是持久的 更新时间:2014年3月19日星期三09:21:40 状态:干净 活跃设备:2 工作装置:2 故障设备:0 备用设备:0 姓名:rescue:2 UUID:b79d3e48:62b55d0b:8501355c:2f905ef2 活动:34 编号 主要 次要 RaidDevice 状态 0 8 3 0 活动同步 /dev/sda3 1 8 19 1 活动同步 /dev/sdb3 $ mdadm -D /dev/md3 /dev/md3: 版本:1.2 创建时间:2012 年 7 月 27 日星期五 13:40:58 突袭级别:raid1 数组大小:1822442815(1738.02 GiB 1866.18 GB) 已使用设备大小:1822442815 (1738.02 GiB 1866.18 GB) 突袭设备:2 设备总数:2 持久性:超级块是持久的 更新时间:2014年3月19日星期三09:21:09 状态:干净 活跃设备:2 工作装置:2 故障设备:0 备用设备:0 姓名:rescue:3 UUID:fdb07043:8bd52646:9f267e1b:d0a43f0e 活动:22 编号 主要 次要 RaidDevice 状态 0 8 4 0 活动同步 /dev/sda4 1 8 20 1 活动同步 /dev/sdb4 $
我在 dmesg 中也找不到任何东西
$ dmesg | grep "md" [1.957908]md:raid0个性注册为0级 [1.959091]md:raid1 角色已注册为 1 级 [2.069112]md:绑定 [2.070684]md:绑定 [2.072032]md:绑定 [2.116159]md:绑定 [2.117310]md/raid1:md3: 2 个镜像中有 2 个处于活动状态 [2.117380]md3:检测到容量变化从0到1866181442560 [2.124174]md:绑定 [2.138621]md3:未知分区表 [2.140113]md:绑定 [2.141326]md/raid1:md2: 2 个镜像中有 2 个处于活动状态 [2.141398]md2:检测到容量变化从0到1099510439936 [2.162685]md2:未知分区表 [2.230596]md:绑定 [2.231715]md/raid1:md1: 2 个镜像中有 2 个处于活动状态 [2.231786]md1:检测到容量变化从0到536858624 [2.233100]md1:未知分区表 [2.436160]md:绑定 [2.437387]md/raid1:md0: 2 个镜像中有 2 个处于活动状态 [2.437456]md0:检测到容量变化从0到34358616064 [2.444765]md0:未知分区表 [2.456675]md:raid6个性注册为6级 [2.456738]md:raid5个性注册为5级 [2.456797]md:raid4个性注册为4级 [2.458570]md:raid10个性注册为10级 [2.462736]md:线性个性注册级别-1 [2.463538]md:多路径个性注册为-4级 [8.213448] EXT4-fs (md2):已安装具有有序数据模式的文件系统。选项:(空) [ 11.334852] 在 /dev/md0 上添加 33553332k 交换。优先级:-1 范围:1 跨越:33553332k [ 11.337379] EXT4-fs(md2):警告:已达到检查时间,建议运行 e2fsck [11.359536]EXT4-fs(md2):已重新安装。选项:(空) [ 11.700105] EXT3-fs(md1):警告:已达到检查时间,建议运行 e2fsck [11.778306]EXT3-fs(md1):使用内部日志 [11.778310]EXT3-fs(md1):以有序数据模式挂载文件系统 [ 12.155704] EXT4-fs(md3):警告:已达到检查时间,建议运行 e2fsck [ 12.218303] EXT4-fs (md3):已安装具有有序数据模式的文件系统。选项:(空) $ dmesg| grep “sd” [1.870244]sd 0:0:0:0:[sda] 5860533168 512 字节逻辑块:(3.00 TB/2.72 TiB) [1.870251]sd 0:0:0:0:附加 scsi 通用 sg0 类型 0 [ 1.870487] sd 0:0:0:0: [sda] 写保护已关闭 [1.870637]sd 1:0:0:0:[sdb] 5860533168 512 字节逻辑块:(3.00 TB/2.72 TiB) [1.870638]sd 1:0:0:0:附加 scsi 通用 sg1 类型 0 [ 1.870667] sd 1:0:0:0: [sdb] 写保护已关闭 [1.870668]sd 1:0:0:0:[sdb]模式感知:00 3a 00 00 [1.870697] sd 1:0:0:0:[sdb] 写入缓存:已启用,读取缓存:已启用,不支持 DPO 或 FUA [1.870989]sd 0:0:0:0:[sda]模式感知:00 3a 00 00 [1.870999] sd 0:0:0:0:[sda] 写入缓存:已启用,读取缓存:已启用,不支持 DPO 或 FUA [1.916610]SDA:SDA1SDA2SDA3SDA4SDA5 [ 1.917195] sd 0:0:0:0: [sda] 附加的 SCSI 磁盘 [1.928325]SDB:SDB1SDB2SDB3SDB4SDB5 [1.929042]sd 1:0:0:0:[sdb]连接的 SCSI 磁盘 [2.069112]md:绑定 [2.070684]md:绑定 [2.072032]md:绑定 [2.116159]md:绑定 [2.124174]md:绑定 [2.140113]md:绑定 [2.230596]md:绑定 [2.436160]md:绑定
我以 mybackup 用户身份运行的 Cron 脚本用于在我管理的两台服务器之间同步内容
/bin/bash #!/bin/bash #按照 https://blogs.oracle.com/jkini/entry/how_to_scp_scp_and 中的说明设置 mybackup 帐户和 sh 密钥 rsync -a -r -u[电子邮件保护]:/tralev/图像/主页/tralev/备份 echo 完成的 travelev 图像 睡眠2秒 rsync -a -r -u[电子邮件保护]:/备份/* /主页/tralev/备份/db echo 完成 travelev db 睡眠2秒 #将 numbeo 文件备份到 tralev 服务器 rsync -a -r -u /numbeo/*[电子邮件保护]:/numbeo/备份 echo 完成的 numbeo 文件,如图像 睡眠2秒 rsync -a -r -u /根/备份/*[电子邮件保护]:/numbeo/db_backup echo 完成 numbeo db 备份 睡眠2秒
仅当从 cron 运行该问题时我才能重现该问题,而当我在服务器上运行该脚本时,我不会遇到同样的问题。
知道可能出现什么问题吗?
编辑:原来我检查的是错误的服务器。更糟糕的是,titan707 服务器上的两个驱动器都发生故障,所以我不得不用备份替换服务器!人为错误!
答案1
您检查的服务器不对。第二个 /proc/mdstat(带有 4 个 raid 阵列)输出不是来自带有三个 raid 阵列的 titan707。