Smartmontools 和 3TB 硬盘

Smartmontools 和 3TB 硬盘

我有许多 3TB 的硬盘,所有硬盘都从一开始就通过 Smartmon 工具显示以下内容。

编辑:使用 Debian 6.0/7.0

现在我通常使用 Seek_Error_Rate 或 CRC_ERROR_COUNT 来判断何时需要更换硬盘,但是,没有任何方法可以判断(据我所知)。

所以我的问题是,判断 3TB 以上硬盘是否出现故障的最佳方法是什么,是否有其他工具或可以设置一些自动化功能,以便尽早让我知道某个硬盘可能出现故障(我有 15 个以上硬盘在使用)

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   108   099   006    Pre-fail  Always       -       17853736
  3 Spin_Up_Time            0x0003   093   092   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       12
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   088   060   030    Pre-fail  Always       -       797480237
  9 Power_On_Hours          0x0032   091   091   000    Old_age   Always       -       8700
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       12
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   098   098   000    Old_age   Always       -       2
190 Airflow_Temperature_Cel 0x0022   070   062   045    Old_age   Always       -       30 (Lifetime Min/Max 29/31)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       10
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       82
194 Temperature_Celsius     0x0022   030   040   000    Old_age   Always       -       30 (0 23 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       1
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       269942989529561
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       155082501012819
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       221731329841837

答案1

我使用 Reallocated_Sector_Ct 来查看磁盘何时会坏掉。它显示磁盘固件决定不再使用的块数,非零数字表示表面已损坏并且已发生数据丢失,并且一旦变为非零,它就会趋于增加。Spin_Retry_Count 也很有用,非零数字意味着驱动器必须重试旋转,可能表示驱动器即将无法启动。CRC_ERROR_COUNT 与与磁盘控制器通信时的故障有关,而不是驱动器内部的错误,并且可能表示电缆或控制器而不是磁盘存在问题。Seek_Error_Rate 无法可靠地解释。

至于监控磁盘,Smartmontools 附带了smartd一个守护进程,它可以在后台运行并定期查询 SMART 数据。

相关内容