rsync 之后发生 DegradedArray 事件，但之后 mdadm 和 smartctl 没有显示任何问题

2024-5-29 • tag-icon

rsync 之后发生 DegradedArray 事件，但之后 mdadm 和 smartctl 没有显示任何问题

我在 cron 中启用了 rsync，每次 rsync 结束后我都会收到电子邮件

这是 mdadm 自动生成的邮件消息
在 titan707 上运行

在 md 设备 /dev/md/2 上检测到了 DegradedArray 事件。

您忠实的，等等。

PS /proc/mdstat 文件当前包含以下内容：

个性：[线性] [多路径] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md1 ：活动 raid1 sdb3[1] sda3[0]
      7995840 块超级 1.2 [2/2] [UU]

md0 ：活动 raid1 sdb2[1](F) sda2[0]
      499712 块超级 1.2 [2/1] [U_]

md2 ：活动 raid1 sdb4[1](F) sda4[0]
      968130304 块超级 1.2 [2/1] [U_]

未使用的设备：

但后来 smartctl 和 mdadmin 没有显示任何问题，请参阅下面来自 mdadm、smartctl 的日志。

$ cat /proc/mdstat
个性：[raid0] [raid1] [raid6] [raid5] [raid4] [raid10] [线性] [多路径]
md0 ：活动 raid1 sda1[0] sdb1[1]
      33553336 块超级 1.2 [2/2] [UU]

md1 ：活动 raid1 sdb2[1] sda2[0]
      524276 块超级 1.2 [2/2] [UU]

md3 ：活动 raid1 sdb4[1] sda4[0]
      1822442815 块超级 1.2 [2/2] [UU]

md2 ：活动 raid1 sdb3[1] sda3[0]
      1073740664 块超级 1.2 [2/2] [UU]

未使用的设备：
$ smartctl -a /dev/sda
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-24-generic]（本地构建）
版权所有 (C) 2002-11 Bruce Allen，http://smartmontools.sourceforge.net

=== 信息部分开始 ===
型号系列：Seagate Barracuda XT
设备型号：ST33000651AS
序列号：Z291E1TG
LU WWN 设备 ID：5 000c50 03f2f8fbc
固件版本：CC45
用户容量：3,000,592,982,016 字节 [3.00 TB]
扇区大小：512 字节逻辑/物理
设备位于：在 smartctl 数据库中 [有关详细信息，请使用：-P show]
ATA 版本为：8
ATA 标准为：ATA-8-ACS 修订版 4
当地时间是： 周三 三月 19 09:20:26 2014 CET
SMART 支持：可用 - 设备具有 SMART 功能。
SMART 支持：已启用

=== 开始读取智能数据部分 ===
SMART 整体健康自我评估测试结果：通过

一般 SMART 值：
离线数据收集状态：（0x82）离线数据收集活动
                    已顺利完成。
                    自动离线数据收集：已启用。
自检执行状态：（0）上一次自检程序已完成
                    没有错误或没有自检过
                    已运行。
完成离线的总时间
数据收集：（600）秒。
离线数据收集
功能：（0x7b）SMART 立即执行离线。
                    支持自动离线数据收集开启/关闭。
                    暂停离线收集新
                    命令。
                    支持离线表面扫描。
                    支持自我测试。
                    支持运输自检。
                    支持选择性自我测试。
SMART 功能：（0x0003）输入前保存 SMART 数据
                    省电模式。
                    支持 SMART 自动保存定时器。
错误日志记录功能：（0x01）支持错误日志记录。
                    支持通用日志记录。
简短的自检程序
建议投票时间：（1）分钟。
扩展自检程序
建议轮询时间：（255）分钟。
运输自检程序
建议投票时间：（2）分钟。
SCT 功能：（0x103f）支持 SCT 状态。
                    支持SCT错误恢复控制。
                    支持 SCT 功能控制。
                    支持SCT数据表。

SMART 属性数据结构修订号：10
供应商特定的 SMART 属性及阈值：
ID# ATTRIBUTE_NAME 标志值 最差阈值类型 已更新 WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate 0x000f 117 099 006 预失败始终 - 152015022
  3 Spin_Up_Time 0x0003 094 094 000 始终预故障 - 0
  4 Start_Stop_Count 0x0032 100 100 020 Old_age 始终 - 6
  5 Reallocated_Sector_Ct 0x0033 100 100 036 预故障始终 - 0
  7 Seek_Error_Rate 0x000f 075 060 030 始终预失败 - 40795438
  9 通电时间 0x0032 077 077 000 老化时间 始终 - 20281
 10 Spin_Retry_Count 0x0013 100 100 097 预失败始终 - 0
 12 Power_Cycle_Count 0x0032 100 100 020 Old_age 始终 - 6
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age 始终 - 0
184 端到端错误 0x0032 100 100 099 Old_age 始终 - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age 始终 - 0
188 命令超时 0x0032 100 100 000 Old_age 始终 - 0
189 High_Fly_Writes 0x003a 100 100 000 Old_age 始终 - 0
190 Airflow_Temperature_Cel 0x0022 053 046 045 Old_age 始终 - 47（最小/最大 43/54）
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age 始终 - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age 始终 - 4
193 Load_Cycle_Count 0x0032 100 100 000 Old_age 始终 - 6
194 温度_摄氏度 0x0022 047 054 000 Old_age 始终 - 47 (0 23 0 0)
195 Hardware_ECC_Recovered 0x001a 021 003 000 Old_age 始终 - 152015022
197 Current_Pending_Sector 0x0012 100 100 000 Old_age 始终 - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age 离线 - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age 始终 - 0
240 Head_Flying_Hours 0x0000 100 253 000 Old_age 离线 - 253145372446521
241 Total_LBAs_Written 0x0000 100 253 000 Old_age 离线 - 2852285811
242 Total_LBAs_Read 0x0000 100 253 000 Old_age 离线 - 811308464

SMART 错误日志版本：1
未记录任何错误

SMART 自检日志结构修订号 1
编号 测试描述 状态 剩余寿命（小时） LBA_of_first_error
# 1 扩展离线 无错误完成 00% 20193 -
# 2 短暂离线 无错误完成 00% 20185 -
# 3 扩展离线 无错误完成 00% 5723 -

SMART 选择性自检日志数据结构修订号 1
 跨度 最小 LBA 最大 LBA 当前测试状态
    1 0 0 未测试
    2 0 0 未测试
    3 0 0 未测试
    4 0 0 未测试
    5 0 0 未测试
选择性自检标志（0x0）：
  扫描选定的范围后，请勿读取扫描磁盘的剩余部分。
如果开机时选择性自检正在等待，则在 0 分钟延迟后恢复。

$ smartctl -a /dev/sdb
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-24-generic]（本地构建）
版权所有 (C) 2002-11 Bruce Allen，http://smartmontools.sourceforge.net

=== 信息部分开始 ===
型号系列：Seagate Barracuda XT
设备型号：ST33000651AS
序列号：Z2917JDM
LU WWN 设备 ID：5 000c50 03f1b6146
固件版本：CC45
用户容量：3,000,592,982,016 字节 [3.00 TB]
扇区大小：512 字节逻辑/物理
设备位于：在 smartctl 数据库中 [有关详细信息，请使用：-P show]
ATA 版本为：8
ATA 标准为：ATA-8-ACS 修订版 4
当地时间是： 2014 年 3 月 19 日星期三 09:20:53 CET
SMART 支持：可用 - 设备具有 SMART 功能。
SMART 支持：已启用

=== 开始读取智能数据部分 ===
SMART 整体健康自我评估测试结果：通过

一般 SMART 值：
离线数据收集状态：（0x82）离线数据收集活动
                    已顺利完成。
                    自动离线数据收集：已启用。
自检执行状态：（0）上一次自检程序已完成
                    没有错误或没有自检过
                    已运行。
完成离线的总时间
数据收集：（609）秒。
离线数据收集
功能：（0x7b）SMART 立即执行离线。
                    支持自动离线数据收集开启/关闭。
                    暂停离线收集新
                    命令。
                    支持离线表面扫描。
                    支持自我测试。
                    支持运输自检。
                    支持选择性自我测试。
SMART 功能：（0x0003）输入前保存 SMART 数据
                    省电模式。
                    支持 SMART 自动保存定时器。
错误日志记录功能：（0x01）支持错误日志记录。
                    支持通用日志记录。
简短的自检程序
建议投票时间：（1）分钟。
扩展自检程序
建议轮询时间：（255）分钟。
运输自检程序
建议投票时间：（2）分钟。
SCT 功能：（0x103f）支持 SCT 状态。
                    支持SCT错误恢复控制。
                    支持 SCT 功能控制。
                    支持SCT数据表。

SMART 属性数据结构修订号：10
供应商特定的 SMART 属性及阈值：
ID# ATTRIBUTE_NAME 标志值 最差阈值类型 已更新 WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate 0x000f 117 099 006 始终预失败 - 144398334
  3 Spin_Up_Time 0x0003 094 094 000 始终预故障 - 0
  4 Start_Stop_Count 0x0032 100 100 020 Old_age 始终 - 6
  5 Reallocated_Sector_Ct 0x0033 100 100 036 预故障始终 - 0
  7 Seek_Error_Rate 0x000f 075 060 030 始终预失败 - 41707682
  9 通电时间 0x0032 077 077 000 老化时间 始终 - 20281
 10 Spin_Retry_Count 0x0013 100 100 097 预失败始终 - 0
 12 Power_Cycle_Count 0x0032 100 100 020 Old_age 始终 - 6
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age 始终 - 0
184 端到端错误 0x0032 100 100 099 Old_age 始终 - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age 始终 - 0
188 命令超时 0x0032 100 100 000 Old_age 始终 - 0
189 High_Fly_Writes 0x003a 100 100 000 Old_age 始终 - 0
190 Airflow_Temperature_Cel 0x0022 057 049 045 Old_age 始终 - 43（最小/最大 39/51）
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age 始终 - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age 始终 - 4
193 Load_Cycle_Count 0x0032 100 100 000 Old_age 始终 - 6
194 温度_摄氏度 0x0022 043 051 000 Old_age 始终 - 43 (0 23 0 0)
195 Hardware_ECC_Recovered 0x001a 021 003 000 Old_age 始终 - 144398334
197 Current_Pending_Sector 0x0012 100 100 000 Old_age 始终 - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age 离线 - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age 始终 - 0
240 Head_Flying_Hours 0x0000 100 253 000 Old_age 离线 - 38959648362297
241 Total_LBAs_Written 0x0000 100 253 000 Old_age 离线 - 162809159
242 Total_LBAs_Read 0x0000 100 253 000 Old_age 离线 - 1526676264

SMART 错误日志版本：1
未记录任何错误

SMART 自检日志结构修订号 1
编号 测试描述 状态 剩余寿命（小时） LBA_of_first_error
# 1 扩展离线 无错误完成 00% 20218 -
# 2 短暂离线 无错误完成 00% 20185 -
# 3 扩展离线 无错误完成 00% 5723 -

SMART 选择性自检日志数据结构修订号 1
 跨度 最小 LBA 最大 LBA 当前测试状态
    1 0 0 未测试
    2 0 0 未测试
    3 0 0 未测试
    4 0 0 未测试
    5 0 0 未测试
选择性自检标志（0x0）：
  扫描选定的范围后，请勿读取扫描磁盘的剩余部分。
如果开机时选择性自检正在等待，则在 0 分钟延迟后恢复。

$
$ mdadm -D /dev/md0
/dev/md0：
        版本：1.2
  创建时间：2012 年 7 月 27 日星期五 13:40:57
     突袭级别：raid1
     数组大小：33553336（32.00 GiB 34.36 GB）
  已使用设备大小：33553336 (32.00 GiB 34.36 GB)
   突袭设备：2
  设备总数：2
    持久性：超级块是持久的

    更新时间：2014年3月17日星期一12:24:57
          状态：干净
 活跃设备：2
工作装置：2
 故障设备：0
  备用设备：0

           姓名：救援：0
           UUID：28ad38a2：f3df9bbc：2f1f4d98：2006ce16
         活动：22

    编号 主要 次要 RaidDevice 状态
       0 8 1 0 活动同步 /dev/sda1
       1 8 17 1 活动同步 /dev/sdb1
$ mdadm -D /dev/md1
/dev/md1：
        版本：1.2
  创建时间：2012 年 7 月 27 日星期五 13:40:57
     突袭级别：raid1
     数组大小：524276（512.07 MiB 536.86 MB）
  使用的开发大小：524276 (512.07 MiB 536.86 MB)
   突袭设备：2
  设备总数：2
    持久性：超级块是持久的

    更新时间：2014年3月19日星期三06:25:43
          状态：干净
 活跃设备：2
工作装置：2
 故障设备：0
  备用设备：0

           姓名：rescue:1
           UUID：659022e1：e93cfcb9：c7b533ae：5a81c83b
         活动：25

    编号 主要 次要 RaidDevice 状态
       0 8 2 0 活动同步 /dev/sda2
       1 8 18 1 活动同步 /dev/sdb2
$ mdadm -D /dev/md2
/dev/md2：
        版本：1.2
  创建时间：2012 年 7 月 27 日星期五 13:40:58
     突袭级别：raid1
     数组大小：1073740664（1024.00 GiB 1099.51 GB）
  已使用设备大小：1073740664 (1024.00 GiB 1099.51 GB)
   突袭设备：2
  设备总数：2
    持久性：超级块是持久的

    更新时间：2014年3月19日星期三09:21:40
          状态：干净
 活跃设备：2
工作装置：2
 故障设备：0
  备用设备：0

           姓名：rescue:2
           UUID：b79d3e48：62b55d0b：8501355c：2f905ef2
         活动：34

    编号 主要 次要 RaidDevice 状态
       0 8 3 0 活动同步 /dev/sda3
       1 8 19 1 活动同步 /dev/sdb3
$ mdadm -D /dev/md3
/dev/md3：
        版本：1.2
  创建时间：2012 年 7 月 27 日星期五 13:40:58
     突袭级别：raid1
     数组大小：1822442815（1738.02 GiB 1866.18 GB）
  已使用设备大小：1822442815 (1738.02 GiB 1866.18 GB)
   突袭设备：2
  设备总数：2
    持久性：超级块是持久的

    更新时间：2014年3月19日星期三09:21:09
          状态：干净
 活跃设备：2
工作装置：2
 故障设备：0
  备用设备：0

           姓名：rescue:3
           UUID：fdb07043：8bd52646：9f267e1b：d0a43f0e
         活动：22

    编号 主要 次要 RaidDevice 状态
       0 8 4 0 活动同步 /dev/sda4
       1 8 20 1 活动同步 /dev/sdb4
$

我在 dmesg 中也找不到任何东西

$ dmesg | grep "md"
[1.957908]md:raid0个性注册为0级
[1.959091]md:raid1 角色已注册为 1 级
[2.069112]md:绑定
[2.070684]md:绑定
[2.072032]md:绑定
[2.116159]md:绑定
[2.117310]md/raid1:md3: 2 个镜像中有 2 个处于活动状态
[2.117380]md3:检测到容量变化从0到1866181442560
[2.124174]md:绑定
[2.138621]md3:未知分区表
[2.140113]md:绑定
[2.141326]md/raid1:md2: 2 个镜像中有 2 个处于活动状态
[2.141398]md2:检测到容量变化从0到1099510439936
[2.162685]md2:未知分区表
[2.230596]md:绑定
[2.231715]md/raid1:md1: 2 个镜像中有 2 个处于活动状态
[2.231786]md1:检测到容量变化从0到536858624
[2.233100]md1:未知分区表
[2.436160]md:绑定
[2.437387]md/raid1:md0: 2 个镜像中有 2 个处于活动状态
[2.437456]md0:检测到容量变化从0到34358616064
[2.444765]md0:未知分区表
[2.456675]md:raid6个性注册为6级
[2.456738]md:raid5个性注册为5级
[2.456797]md:raid4个性注册为4级
[2.458570]md:raid10个性注册为10级
[2.462736]md:线性个性注册级别-1
[2.463538]md:多路径个性注册为-4级
[8.213448] EXT4-fs (md2)：已安装具有有序数据模式的文件系统。选项：（空）
[ 11.334852] 在 /dev/md0 上添加 33553332k 交换。优先级：-1 范围：1 跨越：33553332k
[ 11.337379] EXT4-fs（md2）：警告：已达到检查时间，建议运行 e2fsck
[11.359536]EXT4-fs（md2）：已重新安装。选项：（空）
[ 11.700105] EXT3-fs（md1）：警告：已达到检查时间，建议运行 e2fsck
[11.778306]EXT3-fs（md1）：使用内部日志
[11.778310]EXT3-fs（md1）：以有序数据模式挂载文件系统
[ 12.155704] EXT4-fs（md3）：警告：已达到检查时间，建议运行 e2fsck
[ 12.218303] EXT4-fs (md3)：已安装具有有序数据模式的文件系统。选项：（空）
$ dmesg| grep “sd”
[1.870244]sd 0：0：0：0：[sda] 5860533168 512 字节逻辑块：（3.00 TB/2.72 TiB）
[1.870251]sd 0:0:0:0:附加 scsi 通用 sg0 类型 0
[ 1.870487] sd 0:0:0:0: [sda] 写保护已关闭
[1.870637]sd 1：0：0：0：[sdb] 5860533168 512 字节逻辑块：（3.00 TB/2.72 TiB）
[1.870638]sd 1:0:0:0:附加 scsi 通用 sg1 类型 0
[ 1.870667] sd 1:0:0:0: [sdb] 写保护已关闭
[1.870668]sd 1：0：0：0：[sdb]模式感知：00 3a 00 00
[1.870697] sd 1：0：0：0：[sdb] 写入缓存：已启用，读取缓存：已启用，不支持 DPO 或 FUA
[1.870989]sd 0：0：0：0：[sda]模式感知：00 3a 00 00
[1.870999] sd 0：0：0：0：[sda] 写入缓存：已启用，读取缓存：已启用，不支持 DPO 或 FUA
[1.916610]SDA：SDA1SDA2SDA3SDA4SDA5
[ 1.917195] sd 0:0:0:0: [sda] 附加的 SCSI 磁盘
[1.928325]SDB：SDB1SDB2SDB3SDB4SDB5
[1.929042]sd 1：0：0：0：[sdb]连接的 SCSI 磁盘
[2.069112]md:绑定
[2.070684]md:绑定
[2.072032]md:绑定
[2.116159]md:绑定
[2.124174]md:绑定
[2.140113]md:绑定
[2.230596]md:绑定
[2.436160]md:绑定

我以 mybackup 用户身份运行的 Cron 脚本用于在我管理的两台服务器之间同步内容

/bin/bash #!/bin/bash
#按照 https://blogs.oracle.com/jkini/entry/how_to_scp_scp_and 中的说明设置 mybackup 帐户和 sh 密钥
rsync -a -r -u[电子邮件保护]：/tralev/图像/主页/tralev/备份
echo 完成的 travelev 图像
睡眠2秒

rsync -a -r -u[电子邮件保护]：/备份/* /主页/tralev/备份/db
echo 完成 travelev db
睡眠2秒

#将 numbeo 文件备份到 tralev 服务器
rsync -a -r -u /numbeo/*[电子邮件保护]:/numbeo/备份
echo 完成的 numbeo 文件，如图像
睡眠2秒

rsync -a -r -u /根/备份/*[电子邮件保护]:/numbeo/db_backup
echo 完成 numbeo db 备份
睡眠2秒

仅当从 cron 运行该问题时我才能重现该问题，而当我在服务器上运行该脚本时，我不会遇到同样的问题。

知道可能出现什么问题吗？

编辑：原来我检查的是错误的服务器。更糟糕的是，titan707 服务器上的两个驱动器都发生故障，所以我不得不用备份替换服务器！人为错误！

答案1

您检查的服务器不对。第二个 /proc/mdstat（带有 4 个 raid 阵列）输出不是来自带有三个 raid 阵列的 titan707。

答案1

相关内容