我有一块 Intel X-25M 硬盘,在 ZFS 存储阵列中被标记为“故障”两次,如这里但是,移除驱动器后,它似乎可以在其他计算机(Mac、PC、USB 外壳等)上安装、读取和写入。
有没有好的方法可以确定驱动器当前的健康状况?我觉得 ZFS 解决方案之前的失败是错误、错误报告和硬件的结合。不过,看起来这个驱动器可能还有一些生命力。
答案1
检查任何驱动器健康状况的一个好但并非绝对可靠的方法是检查 SMART 属性。
以下是 Intel X25-M G2 160GB 磁盘的 SMART 属性设置,使用智能控制v5.41.(版本很重要,早期版本的 smartctl 具有不同的属性名称映射,并且实际上无法正确理解此驱动器的特定表)。
# ./smartctl -data -A /dev/sda
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-2.6.18-194.32.1.el5] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net
=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 5
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
3 Spin_Up_Time 0x0020 100 100 000 Old_age Offline - 0
4 Start_Stop_Count 0x0030 100 100 000 Old_age Offline - 0
5 Reallocated_Sector_Ct 0x0032 100 100 000 Old_age Always - 1
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 4076
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 67
192 Unsafe_Shutdown_Count 0x0032 100 100 000 Old_age Always - 30
225 Host_Writes_32MiB 0x0030 200 200 000 Old_age Offline - 148418
226 Workld_Media_Wear_Indic 0x0032 100 100 000 Old_age Always - 755
227 Workld_Host_Reads_Perc 0x0032 100 100 000 Old_age Always - 49
228 Workload_Minutes 0x0032 100 100 000 Old_age Always - 16956537
232 Available_Reservd_Space 0x0033 099 099 010 Pre-fail Always - 0
233 Media_Wearout_Indicator 0x0032 098 098 000 Old_age Always - 0
184 End-to-End_Error 0x0033 100 100 099 Pre-fail Always - 0
这表明驱动器有 1 个重新分配的扇区,已使用其可用保留空间的 1%(属性 232)和预计编程/擦除周期的 2%(属性 233)。已向其写入 148418 * 32MiB(属性 225)。
如果驱动器显示大量重新分配的扇区,则可能需要引起注意,因为这可能表明闪存芯片出现故障(就像旋转磁盘上大量重新分配的扇区通常表明表面错误一样)。端到端也很糟糕 - 我遇到过几个 X25-M G2 160GB 磁盘出现故障,报告大量(>1000)端到端错误。不过,这些磁盘实际上只有两个有用的错误条件属性,因为大多数普通磁盘的有用 SMART 属性不适用于 SSD。
然而,SMART 并不被普遍认为是 100% 可靠的。谷歌对磁盘故障发现虽然各种 SMART 预警指标与驱动器故障之间存在良好的相关性,但它并不是预测单个驱动器故障的有用工具。出于这个原因,我通常使用 SMART 来证明驱动器有问题(如果显示错误,则可能很快就会发生故障),而不是证明驱动器仍然良好。
答案2
尽管它是为“传统”硬盘设计的,“坏块”实用程序可能有一些好处,因为它旨在运行驱动器上所有可映射的扇区。通过 SSD 碎片预防和内部重新映射,它无法确切地告诉您驱动器是否良好。但是,如果它告诉您驱动器坏了,我肯定会将其视为坏了。
答案3
答案4
对我来说,当“Reallocated_Sector_Ct”不为零时,我会更换磁盘
Reallocated_Sector_Ct 是磁盘保留的扇区池,用于换出坏扇区。以前,磁盘在第一天总会有几个坏扇区,然后磁盘可以将它们换出,这样你就有了一个 100% 正常工作的磁盘
如今的磁盘要复杂得多,因此通常只有当磁盘开始出现故障时才会开始进行交换。
这是一个极其简单的描述,但你应该明白了。
另一种策略是密切关注该数字并检查它是否在上升。但通常当磁盘开始出现问题时,您距离灾难性故障只有一步之遥。因此,考虑到如今磁盘的价格,我宁愿扔掉它们也不愿冒险
我从未因磁盘故障而丢失数据。