我有一块硬盘,它是 Linux 软件 raid5 阵列的一部分。SMART 报告其 multi_zone_error_rate 为 0,然后是 1,然后是 3。因此,我认为我最好开始更频繁地备份并准备更换硬盘。现在,今天,同一块硬盘的 multi_zone_error_rate 又降到了 1。似乎在我没注意的时候有 2 个错误没有发生。
通过检查服务器上的系统日志,我也看到了类似的行为。
Jun 7 21:01:17 FS1 smartd[25593]: Device: /dev/sdc, SMART Usage Attribute: 7 Seek_Error_Rate changed from 200 to 100
Jun 7 21:01:17 FS1 smartd[25593]: Device: /dev/sde, SMART Usage Attribute: 7 Seek_Error_Rate changed from 200 to 100
Jun 7 21:01:18 FS1 smartd[25593]: Device: /dev/sdg, SMART Usage Attribute: 7 Seek_Error_Rate changed from 200 to 100
Jun 8 02:31:18 FS1 smartd[25593]: Device: /dev/sdg, SMART Usage Attribute: 7 Seek_Error_Rate changed from 100 to 200
Jun 8 03:01:17 FS1 smartd[25593]: Device: /dev/sdc, SMART Usage Attribute: 7 Seek_Error_Rate changed from 100 to 200
Jun 8 03:01:17 FS1 smartd[25593]: Device: /dev/sde, SMART Usage Attribute: 7 Seek_Error_Rate changed from 100 to 200
这些是原始值,而不是产生的对人类有用的值smartctl -a
,但行为是相似的:错误率发生变化,然后撤消更改。这些都不是具有多区域怪异的驱动器。我没有看到 RAID 出现任何问题;它最近的清理(不到 24 小时前)完全干净。这些是唯一表现奇怪的 SMART 值。
我唯一能想到的就是驱动器上的 SMART 报告电路始终无法正常工作。驱动器和电路板上的电缆连接得很紧。这是怎么回事?
答案1
由于该测量值被称为速率,因此如果没有进一步的错误发生,该值可能会随着时间的推移而下降。您需要查看驱动器的文档以确保无误。
如果测量的是“随时间发生的次数”,而不是自特定时间以来的绝对计数,那么如果错误停止发生,它就会下降。也许之前的增加是由于环境条件的局部变化,例如温度突然上升(异常天气、空调故障)或振动增加(当时在同一机架上进行的任何工作都可能导致物品被撞到,或者如果您在受地震影响的区域,则可能是轻微的地震,或者可能是某人生气了,对着服务员大喊大叫),而这种暂时性的变化情况此后已经恢复,并且没有再出现。
SMART 读取名称中的“错误”并不总是意味着永久和/或不可恢复的错误。寻道错误可能是由于驱动器磁头因振动而偏离目标而导致的 - 在这种情况下,驱动器的电子设备将重新调整位置(或让它稳定下来)并等待光盘旋转回来,以便目标扇区再次可用。由于现代旋转磁盘驱动器对时间要求非常严格,定位要求精确,因此这种情况是可以预料到的,少量此类错误不是问题。
答案2
它可能在坏扇区周围分配空间并“修复”了问题。驱动器中存在一定数量的坏扇区是完全可以容忍的。