我有一个 9 磁盘 raid 5 阵列。
今天我收到一封来自我的服务器的邮件:
This is an automatically generated mail message from mdadm
running on Eldorado
A Fail event had been detected on md device /dev/md0.
It could be related to component device /dev/sdi1.
Faithfully yours, etc.
P.S. The /proc/mdstat file currently contains the following:
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md0 : active raid5 sdb1[1] sdi1[9](F) sdd1[5] sdh1[3] sdj1[7] sde1[4] sdg1[6] sdf1[0] sdc1[2]
7801484288 blocks level 5, 64k chunk, algorithm 2 [9/8] [UUUUUUUU_]
unused devices: <none>
这看起来像是 /dev/sdi 有问题。
然而,我跑了
smartctl -t long -d 3ware,7 /dev/twa0
(驱动器位于 3ware 控制器上,我之前也进行过短暂且方便的测试)并且无论如何,smartctl 不会报告严重问题:
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 7
3 Spin_Up_Time 0x0027 228 109 021 Pre-fail Always - 1591
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 609
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 079 079 000 Old_age Always - 15445
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 607
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 606
193 Load_Cycle_Count 0x0032 134 134 000 Old_age Always - 199738
194 Temperature_Celsius 0x0022 113 106 000 Old_age Always - 34
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Conveyance offline Completed without error 00% 15434 -
# 2 Short offline Completed without error 00% 15434 -
所以目前,我不确定是什么导致了故障,以及我是否可以重新添加驱动器或需要更换它。
我在 ubuntu 12.04 服务器上,mdadm v3.2.5
有什么线索吗?
我知道这个话题Ubuntu 12.04 服务器软件 RAID1-故障备用-智能输出通过-困惑这似乎反映了问题。但这个帖子还没有得到答复。
谨致问候,Stephan
答案1
假设您使用的是消费级驱动器,最可能的原因是驱动器响应请求的时间太长并且控制卡认为驱动器发生了故障。
消费级驱动器固件尝试从难以读取的扇区恢复数据所花的时间比服务器级固件更长。这使得它们在单磁盘操作中更可靠,但在 RAID 阵列中使用时,会导致它们被标记为“故障”,而实际上驱动器没有任何问题。
您的驱动器很可能没有问题。如果您感到疑神疑鬼,可以运行表面扫描以查找坏块(只读或读写),但我只会将其放回阵列中。