如何使用 hdparm 修复待处理的扇区？

Question 1

如果您出于某种原因想要尝试清除这些坏扇区，并且您不关心驱动器的现有内容，则下面的 shell 代码片段可能会有所帮助。我在一个旧的 Seagate Barracuda 驱动器上测试了这一点，该驱动器早已过了保修期。它可能无法与其他驱动器型号或制造商配合使用，但如果您必须编写一些脚本。它将要销毁驱动器上的所有内容。

您可能更喜欢只运行 badblocks，hdparm 安全擦除 (SE) (https://wiki.archlinux.org/index.php/Securely_wipe_disk)，或者其他专门为此设计的工具。或者甚至是制造商提供的工具，如 SeaTools（有一个 32 位 Linux“企业”版本，谷歌一下）。

在执行此操作之前，请确保有问题的驱动器完全未使用/卸载。另外，我知道，while 循环，没有借口。这是一个 hack，你可以做得更好...

baddrive=/dev/sdb
badsect=1
while true; do
  echo Testing from LBA $badsect
  smartctl -t select,${badsect}-max ${baddrive} 2>&1 >> /dev/null

  echo "Waiting for test to stop (each dot is 5 sec)"
  while [ "$(smartctl -l selective ${baddrive} | awk '/^ *1/{print substr($4,1,9)}')" != "Completed" ]; do
    echo -n .
    sleep 5
  done
  echo

  badsect=$(smartctl -l selective ${baddrive} | awk '/# 1  Selective offline   Completed: read failure/ {print $10}')
  [ $badsect = "-" ] && exit 0

  echo Attempting to fix sector $badsect on $baddrive
  hdparm --repair-sector ${badsect} --yes-i-know-what-i-am-doing $baddrive
  echo Continuning test
done

使用“自检”方法的一个优点是负载由驱动器固件处理，因此它所连接的 PC 不会像 dd 或坏块那样被负载压垮。

注意：抱歉，我犯了一个错误，正确的 while 条件是这样的：

while [ "$(smartctl -l selective ${baddrive} | awk '/^ *1/{print $4}')" = "Self_test_in_progess" ]; do

脚本的退出条件变成：

[ $badsect = "-" ] || [ "$badsect" = "" ] && exit 0

Answer

如果您出于某种原因想要尝试清除这些坏扇区，并且您不关心驱动器的现有内容，则下面的 shell 代码片段可能会有所帮助。我在一个旧的 Seagate Barracuda 驱动器上测试了这一点，该驱动器早已过了保修期。它可能无法与其他驱动器型号或制造商配合使用，但如果您必须编写一些脚本。它将要销毁驱动器上的所有内容。

您可能更喜欢只运行 badblocks，hdparm 安全擦除 (SE) (https://wiki.archlinux.org/index.php/Securely_wipe_disk)，或者其他专门为此设计的工具。或者甚至是制造商提供的工具，如 SeaTools（有一个 32 位 Linux“企业”版本，谷歌一下）。

在执行此操作之前，请确保有问题的驱动器完全未使用/卸载。另外，我知道，while 循环，没有借口。这是一个 hack，你可以做得更好...

baddrive=/dev/sdb
badsect=1
while true; do
  echo Testing from LBA $badsect
  smartctl -t select,${badsect}-max ${baddrive} 2>&1 >> /dev/null

  echo "Waiting for test to stop (each dot is 5 sec)"
  while [ "$(smartctl -l selective ${baddrive} | awk '/^ *1/{print substr($4,1,9)}')" != "Completed" ]; do
    echo -n .
    sleep 5
  done
  echo

  badsect=$(smartctl -l selective ${baddrive} | awk '/# 1  Selective offline   Completed: read failure/ {print $10}')
  [ $badsect = "-" ] && exit 0

  echo Attempting to fix sector $badsect on $baddrive
  hdparm --repair-sector ${badsect} --yes-i-know-what-i-am-doing $baddrive
  echo Continuning test
done

使用“自检”方法的一个优点是负载由驱动器固件处理，因此它所连接的 PC 不会像 dd 或坏块那样被负载压垮。

注意：抱歉，我犯了一个错误，正确的 while 条件是这样的：

while [ "$(smartctl -l selective ${baddrive} | awk '/^ *1/{print $4}')" = "Self_test_in_progess" ]; do

脚本的退出条件变成：

[ $badsect = "-" ] || [ "$badsect" = "" ] && exit 0

Question 2

我认为它可能读取时没有错误，因为该扇区没有坏，但是其他工具由于其他行为而无法读取该扇区。（预读到达实际上无法读取的扇区？）

我发现了一些坏扇区，如果我使用“hdparm --read-sector”修复唯一无法读取的扇区，其他“坏”扇区就会突然不再无法读取，例如使用 dd。有趣的是，当查看“dmesg”输出时，只会报告 hdparm 无法读取的扇区。

例如。我的扇区 36589320 到 36589327 和 36589344 到 36589351 无法用 dd 读取，但只有 36589326 和 36589345 无法用 hdparm --read-sector 读取。然后我对这两个扇区使用了 hdparm --write-sector，然后所有 16 个扇区都再次可读。

以下是 dmesg 输出的一小部分：

[30152036.527940] end_request: I/O error, dev sda, sector 36589326
[30152077.363710] end_request: I/O error, dev sda, sector 36589345

磁盘信息：

# smartctl -i /dev/sda
...
=== START OF INFORMATION SECTION ===
Device Model:     TOSHIBA MK2002TSKB
...
Firmware Version: MT2A
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
Sector Size:      512 bytes logical/physical
...

显然，该磁盘的固件要么没有正确记录重新分配的扇区，要么它们实际上并没有重新分配，而只是损坏了（例如不可恢复的 ECC 错误，但表面仍然有效，就像是由位腐烂而不是电子设备故障或媒体损坏引起的）：

# smartctl -A /dev/sda | egrep "Reallocated|Pending|Uncorrectable"
  5 Reallocated_Sector_Ct   0x0033   100   100   050    Pre-fail  Always       -       0
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0

# smartctl -l error /dev/sda
...
SMART Error Log Version: 1
No Errors Logged

请注意，我运行了 --read-sector 和 --write-sector。可能需要读取才能正确重新分配扇区，而不仅仅是写入。如果您不先读取，它可能不知道该扇区是坏的。

Answer