了解 smartctl 和硬盘错误

了解 smartctl 和硬盘错误

我有一个 raidz2 ZFS 池,我的 2 个磁盘开始出现 I/O 错误,之后 zfs 将它们标记为故障。单击查看 dmesg 日志

我取出了磁盘并对它们进行了一些测试。智能控制说;

磁盘1“点击查看完整日志=SMART 健康状态:数据通道即将发生故障,数据错误率过高 [asc=5d,ascq=32]
磁盘2”点击查看完整日志=SMART 健康状态:硬件即将发生故障一般硬盘驱动器故障 [asc=5d,ascq=10]

我从“DISK 1”创建了一个新池,并开始了 fio 测试,但我没有在磁盘上看到任何 I/O 错误。我没有遇到像前一个那样的错误。磁盘工作正常。我还创建了一个包含 4 个磁盘的池,磁盘利用率也正常。
我尝试了这个测试4天,没有遇到错误。该磁盘现在与其他磁盘一样工作。

fio --randrepeat=0 --ioengine=libaio --name=test --filename=/disktest/fiofile  \  
--bs=1024k --iodepth=64 --size=5T --readwrite=readwrite --rwmixread=60 --numjobs=20

我有几个问题;
1- 为什么磁盘不再出现错误?
2- 如果磁盘工作正常,那么为什么会导致第一个池上的 I/O 错误?
3- 了解硬盘驱动器是否出现故障的最佳方法是什么?
4- 我们如何重置硬盘错误计数器?
5- 磁盘是否是垃圾?

附加的磁盘来自;控制器 -> LSI3008HBA -> 2x SAS 电缆 ->“SC946ED-R2KJBOD”2xExpander -> 多路径 SAS 磁盘。

答案1

  1. 有些故障可能会出现或消失。没有什么可以保证您在磁盘损坏之前会收到警告,但如果 SMART 开始出现故障错误,最好不要冒险,只需更换驱动器即可。
  2. 错误可能会来来去去,因为有时磁盘会不断重试问题区域,直到成功为止(此时,如果可以的话,它通常会尝试避免再次使用该区域)。
  3. 您可以对正在使用的每个 LBA 运行长时间的 SMART 自测试和/或读/写(ZFS 有一个可以启动的清理(又名重新同步)过程)。但请注意 - 这些可能会使磁盘永久故障......
  4. 你不能。
  5. 很难说,但让我们换句话说:不更换不必要的设备所节省的钱值得冒着突然失效的风险吗?

相关内容