无症状的磁盘问题：了解 dmesg 报告并评估风险

Question

这是一个非常糟糕的磁盘。看这里：

[Wed Sep 28 12:29:02 2022] sd 0:0:0:0: [sda] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[Wed Sep 28 12:29:02 2022] sd 0:0:0:0: [sda] Sense Key : Medium Error [current] [descriptor]
[Wed Sep 28 12:29:02 2022] sd 0:0:0:0: [sda] Add. Sense: Unrecovered read error - auto reallocate failed
[Wed Sep 28 12:29:02 2022] sd 0:0:0:0: [sda] CDB: Read(16) 88 00 00 00 00 01 84 5d d8 10 00 00 00 08 00 00
[Wed Sep 28 12:29:02 2022] blk_update_request: I/O error, dev sda, sector 6515709968

这告诉您操作系统无法从磁盘读取数据。

看这里：

SMART Attributes Data Structure revision number: 1

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0033   068   068   010    Pre-fail  Always       -       1510
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       9429
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       6

该磁盘已经运行了大约 13 个月（假设 24x7，这在仅记录了 6 个电源周期的情况下是合理的）。不幸的是，1510 个重新分配的扇区比我满意的多了大约 1505 个扇区。

在这里我们可以看到有大量失败的磁盘读取：

183 Runtime_Bad_Block       0x0013   068   068   010    Pre-fail  Always       -       1510
187 Reported_Uncorrect      0x0032   099   099   000    Old_age   Always       -       8242

195 Hardware_ECC_Recovered  0x001a   199   199   000    Old_age   Always       -       8242

您已经写入了相当数量的块（可能是 131 TB），但没有什么特别的（SSD 在其生命周期内有保证的上限写入期望，而您的是 2400 TB），当然也没有不成比例：

241 Total_LBAs_Written      0x0032   099   099   000    Old_age   Always       -       35415578583

我有点担心操作系统将磁盘视为具有 512B 扇区；它们应该是 4kB 扇区/块。可能值得使用诸如fdisk或之类的工具检查一下，parted看看这是否是smartctl.

总之，我想说是时候换一张新磁盘了。鉴于它在 13 个月后就报废了，我本以为它有 12 个月的保修期，但 EVO 似乎有五年。

OP 在评论中问道：“尽管存在硬件问题（例如注销扇区），这种重新定位是否是磁盘继续工作的一种方式？为什么iostat还是显示一切正常？”。

如果无法读取磁盘扇区/块，您将在操作系统级别收到错误。通常，当尝试读取（编辑、复制、备份）文件时，最终会出现 IO 错误。磁盘会将扇区/块标记为不可读，并且不可纠正的计数将会增加。当操作系统（或应用程序）将数据写入磁盘上的该扇区/块时，固件将利用机会将该扇区/块重新映射到为此目的而保留的备用扇区/块之一。不可纠正的计数可能会减少，而重新分配的计数将会增加。

到目前为止，磁盘固件已成功重新分配 1510 个扇区/块，并且大多数 IO 都很好（这就是为什么iostat看起来没问题）。每隔一段时间，您就会遇到另一个不可读的扇区/块 - 如图所示dmesg，并且除非您尝试写入它，否则这种情况不会消失。磁盘迟早会耗尽其保留的扇区/块，并且您会遇到一系列写入错误，然后是文件系统损坏。这确实不是您想要的地方，所以我建议您尝试更换保修期内的磁盘。

不管，确保您拥有并继续保留良好的备份。

Answer 1