所以我发了很多关于使用 MDADM 和 Ubuntu 构建 RAID 的帖子(对此我深表歉意)。我只是不明白我的设置到底是怎么回事。
我有一个 RAID-5 设置,并严格遵循本指南进行操作:http://zackreed.me/articles/38-software-raid-5-in-debian-with-mdadm
无论如何,我遇到了这个持续存在的问题。我有时会在不需要启动 RAID 时将其关闭,而当我将其重新打开时,我会卡在紫色屏幕上。我只需输入 exit 即可退出此屏幕,它会告诉我我的 RAID 已降级,询问我是否要启动它。之后,它就是正常的登录屏幕。然后,这是我通过 SSH 看到的内容:(输入出来)
mdadm-D /dev/md127
然后它返回给我,其中一个驱动器被“删除”
接着我会:
mdadm --manage /dev/md127 --add /dev/sd** (** standing for the drive)
这是我经常得到的
mdadm: /dev/sd** reports being an active member for /dev/md127, but a --re-add fails.
mdadm: not performing --add as that would convert /dev/sdb1 in to a spare.
mdadm: To make this a spare, use "mdadm --zero-superblock /dev/sd**" first.
因此,我将按照这些说明进行操作,然后再次添加驱动器,然后 RAID 将正常重建。
让我沮丧的是,这种情况经常发生,而我不知道为什么。有人能帮帮我吗?有时它工作正常,有时却不行。我所做的就是关闭或打开它。任何帮助都非常感谢,我不明白为什么我的 RAID 不能正常工作或我做错了什么。
答案1
当我重新启动家庭文件服务器并发现类似的错误时,我遇到了类似的问题。
例如,当使用“smartctl --all /dev/sda”时,检查 Reallocated_Sector_Ct 的值很有用,如果它非零并且开始急剧上升,则意味着您的磁盘可能出现故障,需要进行备份。
这是我的驱动器对的值(请务必滚动到右侧才能看到字段值)
sda:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 162 161 021 Pre-fail Always - 6875
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 50
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 065 065 000 Old_age Always - 25675
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 48
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 9
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 50
194 Temperature_Celsius 0x0022 105 099 000 Old_age Always - 45
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 5
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0
和 sdb:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 164 164 021 Pre-fail Always - 6775
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 38
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 066 066 000 Old_age Always - 25548
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 36
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 6
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 38
194 Temperature_Celsius 0x0022 110 099 000 Old_age Always - 40
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0
好消息是,我获得了重新分配的扇区计数的原始值 0。
希望这可以帮助