我有许多 3TB 的硬盘,所有硬盘都从一开始就通过 Smartmon 工具显示以下内容。
编辑:使用 Debian 6.0/7.0
现在我通常使用 Seek_Error_Rate 或 CRC_ERROR_COUNT 来判断何时需要更换硬盘,但是,没有任何方法可以判断(据我所知)。
所以我的问题是,判断 3TB 以上硬盘是否出现故障的最佳方法是什么,是否有其他工具或可以设置一些自动化功能,以便尽早让我知道某个硬盘可能出现故障(我有 15 个以上硬盘在使用)
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 108 099 006 Pre-fail Always - 17853736
3 Spin_Up_Time 0x0003 093 092 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 12
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0
7 Seek_Error_Rate 0x000f 088 060 030 Pre-fail Always - 797480237
9 Power_On_Hours 0x0032 091 091 000 Old_age Always - 8700
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 12
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0
184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
188 Command_Timeout 0x0032 100 100 000 Old_age Always - 0
189 High_Fly_Writes 0x003a 098 098 000 Old_age Always - 2
190 Airflow_Temperature_Cel 0x0022 070 062 045 Old_age Always - 30 (Lifetime Min/Max 29/31)
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 10
193 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 82
194 Temperature_Celsius 0x0022 030 040 000 Old_age Always - 30 (0 23 0 0)
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 1
240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 269942989529561
241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 155082501012819
242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 221731329841837
答案1
我使用 Reallocated_Sector_Ct 来查看磁盘何时会坏掉。它显示磁盘固件决定不再使用的块数,非零数字表示表面已损坏并且已发生数据丢失,并且一旦变为非零,它就会趋于增加。Spin_Retry_Count 也很有用,非零数字意味着驱动器必须重试旋转,可能表示驱动器即将无法启动。CRC_ERROR_COUNT 与与磁盘控制器通信时的故障有关,而不是驱动器内部的错误,并且可能表示电缆或控制器而不是磁盘存在问题。Seek_Error_Rate 无法可靠地解释。
至于监控磁盘,Smartmontools 附带了smartd
一个守护进程,它可以在后台运行并定期查询 SMART 数据。