rsync 之后发生 DegradedArray 事件,但之后 mdadm 和 smartctl 没有显示任何问题

rsync 之后发生 DegradedArray 事件,但之后 mdadm 和 smartctl 没有显示任何问题

我在 cron 中启用了 rsync,每次 rsync 结束后我都会收到电子邮件

这是 mdadm 自动生成的邮件消息
在 titan707 上运行

在 md 设备 /dev/md/2 上检测到了 DegradedArray 事件。

您忠实的,等等。

PS /proc/mdstat 文件当前包含以下内容:

个性:[线性] [多路径] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md1 :活动 raid1 sdb3[1] sda3[0]
      7995840 块超级 1.2 [2/2] [UU]

md0 :活动 raid1 sdb2[1](F) sda2[0]
      499712 块超级 1.2 [2/1] [U_]

md2 :活动 raid1 sdb4[1](F) sda4[0]
      968130304 块超级 1.2 [2/1] [U_]

未使用的设备:

但后来 smartctl 和 mdadmin 没有显示任何问题,请参阅下面来自 mdadm、smartctl 的日志。

$ cat /proc/mdstat
个性:[raid0] [raid1] [raid6] [raid5] [raid4] [raid10] [线性] [多路径]
md0 :活动 raid1 sda1[0] sdb1[1]
      33553336 块超级 1.2 [2/2] [UU]

md1 :活动 raid1 sdb2[1] sda2[0]
      524276 块超级 1.2 [2/2] [UU]

md3 :活动 raid1 sdb4[1] sda4[0]
      1822442815 块超级 1.2 [2/2] [UU]

md2 :活动 raid1 sdb3[1] sda3[0]
      1073740664 块超级 1.2 [2/2] [UU]

未使用的设备:
$ smartctl -a /dev/sda
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-24-generic](本地构建)
版权所有 (C) 2002-11 Bruce Allen,http://smartmontools.sourceforge.net

=== 信息部分开始 ===
型号系列:Seagate Barracuda XT
设备型号:ST33000651AS
序列号:Z291E1TG
LU WWN 设备 ID:5 000c50 03f2f8fbc
固件版本:CC45
用户容量:3,000,592,982,016 字节 [3.00 TB]
扇区大小:512 字节逻辑/物理
设备位于:在 smartctl 数据库中 [有关详细信息,请使用:-P show]
ATA 版本为:8
ATA 标准为:ATA-8-ACS 修订版 4
当地时间是: 周三 三月 19 09:20:26 2014 CET
SMART 支持:可用 - 设备具有 SMART 功能。
SMART 支持:已启用

=== 开始读取智能数据部分 ===
SMART 整体健康自我评估测试结果:通过

一般 SMART 值:
离线数据收集状态:(0x82)离线数据收集活动
                    已顺利完成。
                    自动离线数据收集:已启用。
自检执行状态:(0)上一次自检程序已完成
                    没有错误或没有自检过
                    已运行。
完成离线的总时间
数据收集:(600)秒。
离线数据收集
功能:(0x7b)SMART 立即执行离线。
                    支持自动离线数据收集开启/关闭。
                    暂停离线收集新
                    命令。
                    支持离线表面扫描。
                    支持自我测试。
                    支持运输自检。
                    支持选择性自我测试。
SMART 功能:(0x0003)输入前保存 SMART 数据
                    省电模式。
                    支持 SMART 自动保存定时器。
错误日志记录功能:(0x01)支持错误日志记录。
                    支持通用日志记录。
简短的自检程序
建议投票时间:(1)分钟。
扩展自检程序
建议轮询时间:(255)分钟。
运输自检程序
建议投票时间:(2)分钟。
SCT 功能:(0x103f)支持 SCT 状态。
                    支持SCT错误恢复控制。
                    支持 SCT 功能控制。
                    支持SCT数据表。

SMART 属性数据结构修订号:10
供应商特定的 SMART 属性及阈值:
ID# ATTRIBUTE_NAME 标志值 最差阈值类型 已更新 WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate 0x000f 117 099 006 预失败始终 - 152015022
  3 Spin_Up_Time 0x0003 094 094 000 始终预故障 - 0
  4 Start_Stop_Count 0x0032 100 100 020 Old_age 始终 - 6
  5 Reallocated_Sector_Ct 0x0033 100 100 036 预故障始终 - 0
  7 Seek_Error_Rate 0x000f 075 060 030 始终预失败 - 40795438
  9 通电时间 0x0032 077 077 000 老化时间 始终 - 20281
 10 Spin_Retry_Count 0x0013 100 100 097 预失败始终 - 0
 12 Power_Cycle_Count 0x0032 100 100 020 Old_age 始终 - 6
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age 始终 - 0
184 端到端错误 0x0032 100 100 099 Old_age 始终 - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age 始终 - 0
188 命令超时 0x0032 100 100 000 Old_age 始终 - 0
189 High_Fly_Writes 0x003a 100 100 000 Old_age 始终 - 0
190 Airflow_Temperature_Cel 0x0022 053 046 045 Old_age 始终 - 47(最小/最大 43/54)
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age 始终 - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age 始终 - 4
193 Load_Cycle_Count 0x0032 100 100 000 Old_age 始终 - 6
194 温度_摄氏度 0x0022 047 054 000 Old_age 始终 - 47 (0 23 0 0)
195 Hardware_ECC_Recovered 0x001a 021 003 000 Old_age 始终 - 152015022
197 Current_Pending_Sector 0x0012 100 100 000 Old_age 始终 - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age 离线 - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age 始终 - 0
240 Head_Flying_Hours 0x0000 100 253 000 Old_age 离线 - 253145372446521
241 Total_LBAs_Written 0x0000 100 253 000 Old_age 离线 - 2852285811
242 Total_LBAs_Read 0x0000 100 253 000 Old_age 离线 - 811308464

SMART 错误日志版本:1
未记录任何错误

SMART 自检日志结构修订号 1
编号 测试描述 状态 剩余寿命(小时) LBA_of_first_error
# 1 扩展离线 无错误完成 00% 20193 -
# 2 短暂离线 无错误完成 00% 20185 -
# 3 扩展离线 无错误完成 00% 5723 -

SMART 选择性自检日志数据结构修订号 1
 跨度 最小 LBA 最大 LBA 当前测试状态
    1 0 0 未测试
    2 0 0 未测试
    3 0 0 未测试
    4 0 0 未测试
    5 0 0 未测试
选择性自检标志(0x0):
  扫描选定的范围后,请勿读取扫描磁盘的剩余部分。
如果开机时选择性自检正在等待,则在 0 分钟延迟后恢复。

$ smartctl -a /dev/sdb
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-24-generic](本地构建)
版权所有 (C) 2002-11 Bruce Allen,http://smartmontools.sourceforge.net

=== 信息部分开始 ===
型号系列:Seagate Barracuda XT
设备型号:ST33000651AS
序列号:Z2917JDM
LU WWN 设备 ID:5 000c50 03f1b6146
固件版本:CC45
用户容量:3,000,592,982,016 字节 [3.00 TB]
扇区大小:512 字节逻辑/物理
设备位于:在 smartctl 数据库中 [有关详细信息,请使用:-P show]
ATA 版本为:8
ATA 标准为:ATA-8-ACS 修订版 4
当地时间是: 2014 年 3 月 19 日星期三 09:20:53 CET
SMART 支持:可用 - 设备具有 SMART 功能。
SMART 支持:已启用

=== 开始读取智能数据部分 ===
SMART 整体健康自我评估测试结果:通过

一般 SMART 值:
离线数据收集状态:(0x82)离线数据收集活动
                    已顺利完成。
                    自动离线数据收集:已启用。
自检执行状态:(0)上一次自检程序已完成
                    没有错误或没有自检过
                    已运行。
完成离线的总时间
数据收集:(609)秒。
离线数据收集
功能:(0x7b)SMART 立即执行离线。
                    支持自动离线数据收集开启/关闭。
                    暂停离线收集新
                    命令。
                    支持离线表面扫描。
                    支持自我测试。
                    支持运输自检。
                    支持选择性自我测试。
SMART 功能:(0x0003)输入前保存 SMART 数据
                    省电模式。
                    支持 SMART 自动保存定时器。
错误日志记录功能:(0x01)支持错误日志记录。
                    支持通用日志记录。
简短的自检程序
建议投票时间:(1)分钟。
扩展自检程序
建议轮询时间:(255)分钟。
运输自检程序
建议投票时间:(2)分钟。
SCT 功能:(0x103f)支持 SCT 状态。
                    支持SCT错误恢复控制。
                    支持 SCT 功能控制。
                    支持SCT数据表。

SMART 属性数据结构修订号:10
供应商特定的 SMART 属性及阈值:
ID# ATTRIBUTE_NAME 标志值 最差阈值类型 已更新 WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate 0x000f 117 099 006 始终预失败 - 144398334
  3 Spin_Up_Time 0x0003 094 094 000 始终预故障 - 0
  4 Start_Stop_Count 0x0032 100 100 020 Old_age 始终 - 6
  5 Reallocated_Sector_Ct 0x0033 100 100 036 预故障始终 - 0
  7 Seek_Error_Rate 0x000f 075 060 030 始终预失败 - 41707682
  9 通电时间 0x0032 077 077 000 老化时间 始终 - 20281
 10 Spin_Retry_Count 0x0013 100 100 097 预失败始终 - 0
 12 Power_Cycle_Count 0x0032 100 100 020 Old_age 始终 - 6
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age 始终 - 0
184 端到端错误 0x0032 100 100 099 Old_age 始终 - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age 始终 - 0
188 命令超时 0x0032 100 100 000 Old_age 始终 - 0
189 High_Fly_Writes 0x003a 100 100 000 Old_age 始终 - 0
190 Airflow_Temperature_Cel 0x0022 057 049 045 Old_age 始终 - 43(最小/最大 39/51)
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age 始终 - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age 始终 - 4
193 Load_Cycle_Count 0x0032 100 100 000 Old_age 始终 - 6
194 温度_摄氏度 0x0022 043 051 000 Old_age 始终 - 43 (0 23 0 0)
195 Hardware_ECC_Recovered 0x001a 021 003 000 Old_age 始终 - 144398334
197 Current_Pending_Sector 0x0012 100 100 000 Old_age 始终 - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age 离线 - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age 始终 - 0
240 Head_Flying_Hours 0x0000 100 253 000 Old_age 离线 - 38959648362297
241 Total_LBAs_Written 0x0000 100 253 000 Old_age 离线 - 162809159
242 Total_LBAs_Read 0x0000 100 253 000 Old_age 离线 - 1526676264

SMART 错误日志版本:1
未记录任何错误

SMART 自检日志结构修订号 1
编号 测试描述 状态 剩余寿命(小时) LBA_of_first_error
# 1 扩展离线 无错误完成 00% 20218 -
# 2 短暂离线 无错误完成 00% 20185 -
# 3 扩展离线 无错误完成 00% 5723 -

SMART 选择性自检日志数据结构修订号 1
 跨度 最小 LBA 最大 LBA 当前测试状态
    1 0 0 未测试
    2 0 0 未测试
    3 0 0 未测试
    4 0 0 未测试
    5 0 0 未测试
选择性自检标志(0x0):
  扫描选定的范围后,请勿读取扫描磁盘的剩余部分。
如果开机时选择性自检正在等待,则在 0 分钟延迟后恢复。

$
$ mdadm -D /dev/md0
/dev/md0:
        版本:1.2
  创建时间:2012 年 7 月 27 日星期五 13:40:57
     突袭级别:raid1
     数组大小:33553336(32.00 GiB 34.36 GB)
  已使用设备大小:33553336 (32.00 GiB 34.36 GB)
   突袭设备:2
  设备总数:2
    持久性:超级块是持久的

    更新时间:2014年3月17日星期一12:24:57
          状态:干净
 活跃设备:2
工作装置:2
 故障设备:0
  备用设备:0

           姓名:救援:0
           UUID:28ad38a2:f3df9bbc:2f1f4d98:2006ce16
         活动:22

    编号 主要 次要 RaidDevice 状态
       0 8 1 0 活动同步 /dev/sda1
       1 8 17 1 活动同步 /dev/sdb1
$ mdadm -D /dev/md1
/dev/md1:
        版本:1.2
  创建时间:2012 年 7 月 27 日星期五 13:40:57
     突袭级别:raid1
     数组大小:524276(512.07 MiB 536.86 MB)
  使用的开发大小:524276 (512.07 MiB 536.86 MB)
   突袭设备:2
  设备总数:2
    持久性:超级块是持久的

    更新时间:2014年3月19日星期三06:25:43
          状态:干净
 活跃设备:2
工作装置:2
 故障设备:0
  备用设备:0

           姓名:rescue:1
           UUID:659022e1:e93cfcb9:c7b533ae:5a81c83b
         活动:25

    编号 主要 次要 RaidDevice 状态
       0 8 2 0 活动同步 /dev/sda2
       1 8 18 1 活动同步 /dev/sdb2
$ mdadm -D /dev/md2
/dev/md2:
        版本:1.2
  创建时间:2012 年 7 月 27 日星期五 13:40:58
     突袭级别:raid1
     数组大小:1073740664(1024.00 GiB 1099.51 GB)
  已使用设备大小:1073740664 (1024.00 GiB 1099.51 GB)
   突袭设备:2
  设备总数:2
    持久性:超级块是持久的

    更新时间:2014年3月19日星期三09:21:40
          状态:干净
 活跃设备:2
工作装置:2
 故障设备:0
  备用设备:0

           姓名:rescue:2
           UUID:b79d3e48:62b55d0b:8501355c:2f905ef2
         活动:34

    编号 主要 次要 RaidDevice 状态
       0 8 3 0 活动同步 /dev/sda3
       1 8 19 1 活动同步 /dev/sdb3
$ mdadm -D /dev/md3
/dev/md3:
        版本:1.2
  创建时间:2012 年 7 月 27 日星期五 13:40:58
     突袭级别:raid1
     数组大小:1822442815(1738.02 GiB 1866.18 GB)
  已使用设备大小:1822442815 (1738.02 GiB 1866.18 GB)
   突袭设备:2
  设备总数:2
    持久性:超级块是持久的

    更新时间:2014年3月19日星期三09:21:09
          状态:干净
 活跃设备:2
工作装置:2
 故障设备:0
  备用设备:0

           姓名:rescue:3
           UUID:fdb07043:8bd52646:9f267e1b:d0a43f0e
         活动:22

    编号 主要 次要 RaidDevice 状态
       0 8 4 0 活动同步 /dev/sda4
       1 8 20 1 活动同步 /dev/sdb4
$

我在 dmesg 中也找不到任何东西

$ dmesg | grep "md"
[1.957908]md:raid0个性注册为0级
[1.959091]md:raid1 角色已注册为 1 级
[2.069112]md:绑定
[2.070684]md:绑定
[2.072032]md:绑定
[2.116159]md:绑定
[2.117310]md/raid1:md3: 2 个镜像中有 2 个处于活动状态
[2.117380]md3:检测到容量变化从0到1866181442560
[2.124174]md:绑定
[2.138621]md3:未知分区表
[2.140113]md:绑定
[2.141326]md/raid1:md2: 2 个镜像中有 2 个处于活动状态
[2.141398]md2:检测到容量变化从0到1099510439936
[2.162685]md2:未知分区表
[2.230596]md:绑定
[2.231715]md/raid1:md1: 2 个镜像中有 2 个处于活动状态
[2.231786]md1:检测到容量变化从0到536858624
[2.233100]md1:未知分区表
[2.436160]md:绑定
[2.437387]md/raid1:md0: 2 个镜像中有 2 个处于活动状态
[2.437456]md0:检测到容量变化从0到34358616064
[2.444765]md0:未知分区表
[2.456675]md:raid6个性注册为6级
[2.456738]md:raid5个性注册为5级
[2.456797]md:raid4个性注册为4级
[2.458570]md:raid10个性注册为10级
[2.462736]md:线性个性注册级别-1
[2.463538]md:多路径个性注册为-4级
[8.213448] EXT4-fs (md2):已安装具有有序数据模式的文件系统。选项:(空)
[ 11.334852] 在 /dev/md0 上添加 33553332k 交换。优先级:-1 范围:1 跨越:33553332k
[ 11.337379] EXT4-fs(md2):警告:已达到检查时间,建议运行 e2fsck
[11.359536]EXT4-fs(md2):已重新安装。选项:(空)
[ 11.700105] EXT3-fs(md1):警告:已达到检查时间,建议运行 e2fsck
[11.778306]EXT3-fs(md1):使用内部日志
[11.778310]EXT3-fs(md1):以有序数据模式挂载文件系统
[ 12.155704] EXT4-fs(md3):警告:已达到检查时间,建议运行 e2fsck
[ 12.218303] EXT4-fs (md3):已安装具有有序数据模式的文件系统。选项:(空)
$ dmesg| grep “sd”
[1.870244]sd 0:0:0:0:[sda] 5860533168 512 字节逻辑块:(3.00 TB/2.72 TiB)
[1.870251]sd 0:0:0:0:附加 scsi 通用 sg0 类型 0
[ 1.870487] sd 0:0:0:0: [sda] 写保护已关闭
[1.870637]sd 1:0:0:0:[sdb] 5860533168 512 字节逻辑块:(3.00 TB/2.72 TiB)
[1.870638]sd 1:0:0:0:附加 scsi 通用 sg1 类型 0
[ 1.870667] sd 1:0:0:0: [sdb] 写保护已关闭
[1.870668]sd 1:0:0:0:[sdb]模式感知:00 3a 00 00
[1.870697] sd 1:0:0:0:[sdb] 写入缓存:已启用,读取缓存:已启用,不支持 DPO 或 FUA
[1.870989]sd 0:0:0:0:[sda]模式感知:00 3a 00 00
[1.870999] sd 0:0:0:0:[sda] 写入缓存:已启用,读取缓存:已启用,不支持 DPO 或 FUA
[1.916610]SDA:SDA1SDA2SDA3SDA4SDA5
[ 1.917195] sd 0:0:0:0: [sda] 附加的 SCSI 磁盘
[1.928325]SDB:SDB1SDB2SDB3SDB4SDB5
[1.929042]sd 1:0:0:0:[sdb]连接的 SCSI 磁盘
[2.069112]md:绑定
[2.070684]md:绑定
[2.072032]md:绑定
[2.116159]md:绑定
[2.124174]md:绑定
[2.140113]md:绑定
[2.230596]md:绑定
[2.436160]md:绑定

我以 mybackup 用户身份运行的 Cron 脚本用于在我管理的两台服务器之间同步内容

/bin/bash #!/bin/bash
#按照 https://blogs.oracle.com/jkini/entry/how_to_scp_scp_and 中的说明设置 mybackup 帐户和 sh 密钥
rsync -a -r -u[电子邮件保护]:/tralev/图像/主页/tralev/备份
echo 完成的 travelev 图像
睡眠2秒

rsync -a -r -u[电子邮件保护]:/备份/* /主页/tralev/备份/db
echo 完成 travelev db
睡眠2秒

#将 numbeo 文件备份到 tralev 服务器
rsync -a -r -u /numbeo/*[电子邮件保护]:/numbeo/备份
echo 完成的 numbeo 文件,如图像
睡眠2秒

rsync -a -r -u /根/备份/*[电子邮件保护]:/numbeo/db_backup
echo 完成 numbeo db 备份
睡眠2秒

仅当从 cron 运行该问题时我才能重现该问题,而当我在服务器上运行该脚本时,我不会遇到同样的问题。

知道可能出现什么问题吗?

编辑:原来我检查的是错误的服务器。更糟糕的是,titan707 服务器上的两个驱动器都发生故障,所以我不得不用备份替换服务器!人为错误!

答案1

您检查的服务器不对。第二个 /proc/mdstat(带有 4 个 raid 阵列)输出不是来自带有三个 raid 阵列的 titan707。

相关内容