如何解释 SAS 磁盘的 SMART 数据?

如何解释 SAS 磁盘的 SMART 数据?

我正在用新的 SAS 磁盘替换一些出现故障的 SATA 磁盘。其中一个出现故障的磁盘所属的 RAID 阵列正在重新同步。随着这一过程的进行,我可以看到新磁盘上的写入错误纠正率缓慢但稳定地增加。这是我第一次接触 SAS 硬件,我不熟悉 smartctl 输出,因为我习惯了 SATA 磁盘产生的大表。

该磁盘是 HGST Ultrastar 2TB,通过 IBM M1015 HBA 连接,处于直通模式。

我该如何解读下面的 SMART 数据?不断上升的校正误差率是否应该让我担心?校正算法调用字段又如何呢?

  Device: HITACHI  HUS723020ALS640  Version: A222
Serial number:         xxxxxxxx
Device type: disk
Transport protocol: SAS
Local Time is: Thu Jul 11 15:42:30 2013 MDT
Device supports SMART and is Enabled
Temperature Warning Enabled
SMART Health Status: OK

Current Drive Temperature:     44 C
Drive Trip Temperature:        85 C
Manufactured in week 29 of year 2012
Recommended maximum start stop count:  50000 times
Current start stop count:      2 times
Elements in grown defect list: 0
Vendor (Seagate) cache information
  Blocks sent to initiator = 149833037905920

Error counter log:
           Errors Corrected by           Total   Correction     Gigabytes    Total
               ECC          rereads/    errors   algorithm      processed    uncorrected
           fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
read:          0        0         0         0          6          0.565           0
write:         0      400         0       400         51       1034.246           0
verify:        0        0         0         0         37          0.000           0

Non-medium error count:        0

答案1

延迟错误是会减慢其他请求速度的错误。ECC 校正错误对 SCSI/SAS 驱动器来说并不是什么大问题,我们部署了数亿个这样的驱动器,它们仍然运行良好。校正算法调用有点严重,可能需要重新读取/重写磁盘,并重试 ECC 计算。

很难说你的错误数量是否令人担忧。没有一个统一的标准,每个制造商都有自己的标准,并且都是专有的。你通常可以从制造商网站下载实用程序来获取更多信息。

对于日立,链接是: http://www.hgst.com/support/downloads#WINDFT

您可以在这里阅读有关不同错误的更多信息: http://smartmontools.sourceforge.net/smartmontools_scsi.html

相关内容