我正在用新的 SAS 磁盘替换一些出现故障的 SATA 磁盘。其中一个出现故障的磁盘所属的 RAID 阵列正在重新同步。随着这一过程的进行,我可以看到新磁盘上的写入错误纠正率缓慢但稳定地增加。这是我第一次接触 SAS 硬件,我不熟悉 smartctl 输出,因为我习惯了 SATA 磁盘产生的大表。
该磁盘是 HGST Ultrastar 2TB,通过 IBM M1015 HBA 连接,处于直通模式。
我该如何解读下面的 SMART 数据?不断上升的校正误差率是否应该让我担心?校正算法调用字段又如何呢?
Device: HITACHI HUS723020ALS640 Version: A222
Serial number: xxxxxxxx
Device type: disk
Transport protocol: SAS
Local Time is: Thu Jul 11 15:42:30 2013 MDT
Device supports SMART and is Enabled
Temperature Warning Enabled
SMART Health Status: OK
Current Drive Temperature: 44 C
Drive Trip Temperature: 85 C
Manufactured in week 29 of year 2012
Recommended maximum start stop count: 50000 times
Current start stop count: 2 times
Elements in grown defect list: 0
Vendor (Seagate) cache information
Blocks sent to initiator = 149833037905920
Error counter log:
Errors Corrected by Total Correction Gigabytes Total
ECC rereads/ errors algorithm processed uncorrected
fast | delayed rewrites corrected invocations [10^9 bytes] errors
read: 0 0 0 0 6 0.565 0
write: 0 400 0 400 51 1034.246 0
verify: 0 0 0 0 37 0.000 0
Non-medium error count: 0
答案1
延迟错误是会减慢其他请求速度的错误。ECC 校正错误对 SCSI/SAS 驱动器来说并不是什么大问题,我们部署了数亿个这样的驱动器,它们仍然运行良好。校正算法调用有点严重,可能需要重新读取/重写磁盘,并重试 ECC 计算。
很难说你的错误数量是否令人担忧。没有一个统一的标准,每个制造商都有自己的标准,并且都是专有的。你通常可以从制造商网站下载实用程序来获取更多信息。
对于日立,链接是: http://www.hgst.com/support/downloads#WINDFT
您可以在这里阅读有关不同错误的更多信息: http://smartmontools.sourceforge.net/smartmontools_scsi.html