更新

Question

我不知道如何使用您尝试的解决方案强制进行 fsck，但我可以建议一种替代解决方案：

使用tune2fs并将值限制为非常低的重新挂载和非常低的时间戳

# To see current settings
sudo tune2fs -l /dev/sda4
# To alter it
sudo tune2fs -c 1 -i 1d /dev/sda4

这将强制在每次重新安装时或自上次检查后每隔 1 天进行检查，以较早发生者为准。

检查 SMART

正如其他人所说，这只是硬件问题的权宜之计。有时是硬盘坏了，有时是无关的硬件问题（执行内存测试），有时只是 SATA 电缆松动（从两端拔下并重新插入，如果这不能解决问题，请尝试另一根电缆）。

小心最坏的情况，PSU 出现故障并损坏其余硬件（在这种情况下，更换 HDD 只能暂时解决问题，因为随着时间的推移，新的 HDD 将被 PSU 损坏）。检查电压是否在可接受的水平内。

发布智能的输出：

sudo smartctl -a /dev/sda

可以帮助诊断可能发生的情况。

更新

我不知道为什么你不能通过 tune2fs 运行 fsck。

但是我看了你的 SMART。据它显示你的磁盘正在老化，但看起来还很健康。

问题可能出在其他地方，例如 SATA 电缆。

如果您无法使 fsck 工作，那么我建议您从 liveUsb 启动并手动运行命令。

更新 2

好的，您发布了 dmseg 消息。我们从 SMART 和 OS 中得到了相互矛盾的信息，所以我就详细写一下。

坏块

SMART 表示您的驱动器有坏块。对于任何 SSD 来说，这都是正常现象，因为它们会老化，驱动器会将数据重新分配到备用块中。一旦用尽备用块，就需要更换驱动器。

SMART 表示坏块数量在“正常”范围内：这里要注意的最重要的属性是Reallocated_Sector_Ct和Runtime_Bad_Block。

它说检测到了 311 个坏块，并将 311 个重新分配到备用块。这很好。如果有 311 个坏块但只有 310 个重新分配，则意味着其中一个块中的数据丢失了。

重要的是“标准化”值 (038)。制造商会通过这个值告诉您他们认为什么是正常的。

100 表示完美，0 表示非常糟糕。目前该值为 38，表示“情况越来越糟”；但制造商表示，只要该值高于 010（阈值），就没问题。

这里我们得到了第一个相互矛盾的信息：Used_Rsvd_Blk_Cnt_Tot称保护区根本没有被触及，尽管有坏块。这说不通。

但是如果固件尽管报告了该值但却没有跟踪它，我不会感到惊讶，所以我们暂时忽略它。

磨损均衡

这是最难读取的属性。Wear_Leveling_Count显示为 001。通常，值为 1 表示您的驱动器已损坏，必须尽快更换。

这意味着它已经用完了备用块。但是，有些固件错误会导致此属性被反向报告，值为 1 表示驱动器的健康状况为 99%。

用一个TBW 计算器我输入了您写入的 LBA 数量 + 512 扇区大小，结果显示您的驱动器已写入 77.43TiB。根据谷歌，您的型号应该有 150TBW，因此应该仍然可行。

恐怕最好的解决方案是启动 Windows 系统并运行晶盘信息它可以解释这些固件错误（使用内部数据库）并向您报告非常准确的健康评估。

鉴于您的聪明才智，SMART overall-health self-assessment test result: PASSED我倾向于相信它想说的是 99%，而不是 1%。

但如果我错了我们就只能在这里停下来，必须更换磁盘。

电缆问题/主板问题

Linux dmesg 中的错误基本上表明它尝试读取一个扇区并获得了坏数据。

内核甚至说它尝试读取扇区 235602696 两次并得到了不同的数据：

28 00 0e 0b 03 08 00 002000
28 00 0e 0b 03 08 00 000800。

如果磁盘显示没有错误，但操作系统显示有错误，则数据在传输过程中损坏。通常这表示：

SATA 电缆插松
SATA 线损坏
电源线插松
电源线损坏
主板总线故障
PSU 故障
RAM 故障

但我们现在我们的第二个相互矛盾的信息来源： UDMA_CRC_Error_Count为 0。

这意味着磁盘从未检测到由电缆损坏/松动或主板总线损坏引起的单个错误。

这不太可能。SMART 表示磁盘没有问题，从操作系统进入磁盘的命令从未因接线错误而损坏；但操作系统读取同一个扇区两次，得到的是不同的字节。

我能想到的唯一可能导致这种情况发生的情况是你的 RAM 有问题。或者极不可能发生电缆问题，所有进入磁盘的数据都不会损坏，但从磁盘传出的数据会损坏。

行动方针

我的直觉告诉我磁盘有问题。但是：

将所有数据备份到另一个磁盘。在 LiveUSB 运行中（以及足够大的外部 USB 驱动器）：

sudo apt install zstd

# To backup
sudo zstd -16v < /dev/sda > /media/external_disk/backup_file.zst

# To restore (don't do that on step 1, see step 5)
sudo zstdcat -v /media/external_disk/backup_file.zst > /dev/sda

再次备份数据，但这次只使用常规复制文件（如果磁盘坏了，从简单的备份中恢复要比尝试循环安装磁盘的压缩 zstd 映像并从中读取文件容易得多）
重新启动并运行内存测试以消除 RAM 错误
关机，打开机箱，拔下并重新插入 SATA 和电源（驱动器）电缆。检查它们是否损坏。可能需要更换它们。
再次启动 LiveUSB 驱动器并执行磁盘安全擦除。如果您的驱动器出现问题，这也许会将其重置为工作状态（或者，如果磁盘无法挽救，这也许会导致它运行的最后一个命令）。这应该需要几分钟：

sudo blkdiscard -s /dev/sda

如果到目前为止一切顺利，请使用sudo zstdcat步骤 1 中的命令恢复备份。

如果磁盘仍然有问题并且 memtest 成功，那么我个人会判定该磁盘为坏的。

我们不能忽视，038 的数值意味着Reallocated_Sector_Ct情况正在变得糟糕，尽管制造商表示情况还没有“那么”糟糕。

啊！重要提示：如果在某个时候你让磁盘关闭超过 3 个月，这种情况很有可能发生。尽管人们普遍认为，如果 NAND 单元长时间断电（“长时间”可以是 7 天到 7 年，但最常见的情况是 3 个月），它们可能会失去存储能力。特别是如果它们很旧的话。

如果您遇到这种情况，只需执行上述步骤：备份数据、安全擦除磁盘、恢复备份。

祝你好运。

Answer 1

我不知道如何使用您尝试的解决方案强制进行 fsck，但我可以建议一种替代解决方案：

使用tune2fs并将值限制为非常低的重新挂载和非常低的时间戳

# To see current settings
sudo tune2fs -l /dev/sda4
# To alter it
sudo tune2fs -c 1 -i 1d /dev/sda4

这将强制在每次重新安装时或自上次检查后每隔 1 天进行检查，以较早发生者为准。

检查 SMART

正如其他人所说，这只是硬件问题的权宜之计。有时是硬盘坏了，有时是无关的硬件问题（执行内存测试），有时只是 SATA 电缆松动（从两端拔下并重新插入，如果这不能解决问题，请尝试另一根电缆）。

小心最坏的情况，PSU 出现故障并损坏其余硬件（在这种情况下，更换 HDD 只能暂时解决问题，因为随着时间的推移，新的 HDD 将被 PSU 损坏）。检查电压是否在可接受的水平内。

发布智能的输出：

sudo smartctl -a /dev/sda

可以帮助诊断可能发生的情况。

更新

我不知道为什么你不能通过 tune2fs 运行 fsck。

但是我看了你的 SMART。据它显示你的磁盘正在老化，但看起来还很健康。

问题可能出在其他地方，例如 SATA 电缆。

如果您无法使 fsck 工作，那么我建议您从 liveUsb 启动并手动运行命令。

更新 2

好的，您发布了 dmseg 消息。我们从 SMART 和 OS 中得到了相互矛盾的信息，所以我就详细写一下。

坏块

SMART 表示您的驱动器有坏块。对于任何 SSD 来说，这都是正常现象，因为它们会老化，驱动器会将数据重新分配到备用块中。一旦用尽备用块，就需要更换驱动器。

SMART 表示坏块数量在“正常”范围内：这里要注意的最重要的属性是Reallocated_Sector_Ct和Runtime_Bad_Block。

它说检测到了 311 个坏块，并将 311 个重新分配到备用块。这很好。如果有 311 个坏块但只有 310 个重新分配，则意味着其中一个块中的数据丢失了。

重要的是“标准化”值 (038)。制造商会通过这个值告诉您他们认为什么是正常的。

100 表示完美，0 表示非常糟糕。目前该值为 38，表示“情况越来越糟”；但制造商表示，只要该值高于 010（阈值），就没问题。

这里我们得到了第一个相互矛盾的信息：Used_Rsvd_Blk_Cnt_Tot称保护区根本没有被触及，尽管有坏块。这说不通。

但是如果固件尽管报告了该值但却没有跟踪它，我不会感到惊讶，所以我们暂时忽略它。

磨损均衡

这是最难读取的属性。Wear_Leveling_Count显示为 001。通常，值为 1 表示您的驱动器已损坏，必须尽快更换。

这意味着它已经用完了备用块。但是，有些固件错误会导致此属性被反向报告，值为 1 表示驱动器的健康状况为 99%。

用一个TBW 计算器我输入了您写入的 LBA 数量 + 512 扇区大小，结果显示您的驱动器已写入 77.43TiB。根据谷歌，您的型号应该有 150TBW，因此应该仍然可行。

恐怕最好的解决方案是启动 Windows 系统并运行晶盘信息它可以解释这些固件错误（使用内部数据库）并向您报告非常准确的健康评估。

鉴于您的聪明才智，SMART overall-health self-assessment test result: PASSED我倾向于相信它想说的是 99%，而不是 1%。

但如果我错了我们就只能在这里停下来，必须更换磁盘。

电缆问题/主板问题

Linux dmesg 中的错误基本上表明它尝试读取一个扇区并获得了坏数据。

内核甚至说它尝试读取扇区 235602696 两次并得到了不同的数据：

28 00 0e 0b 03 08 00 002000
28 00 0e 0b 03 08 00 000800。

如果磁盘显示没有错误，但操作系统显示有错误，则数据在传输过程中损坏。通常这表示：

SATA 电缆插松
SATA 线损坏
电源线插松
电源线损坏
主板总线故障
PSU 故障
RAM 故障

但我们现在我们的第二个相互矛盾的信息来源： UDMA_CRC_Error_Count为 0。

这意味着磁盘从未检测到由电缆损坏/松动或主板总线损坏引起的单个错误。

这不太可能。SMART 表示磁盘没有问题，从操作系统进入磁盘的命令从未因接线错误而损坏；但操作系统读取同一个扇区两次，得到的是不同的字节。

我能想到的唯一可能导致这种情况发生的情况是你的 RAM 有问题。或者极不可能发生电缆问题，所有进入磁盘的数据都不会损坏，但从磁盘传出的数据会损坏。

行动方针

我的直觉告诉我磁盘有问题。但是：

将所有数据备份到另一个磁盘。在 LiveUSB 运行中（以及足够大的外部 USB 驱动器）：

sudo apt install zstd

# To backup
sudo zstd -16v < /dev/sda > /media/external_disk/backup_file.zst

# To restore (don't do that on step 1, see step 5)
sudo zstdcat -v /media/external_disk/backup_file.zst > /dev/sda

再次备份数据，但这次只使用常规复制文件（如果磁盘坏了，从简单的备份中恢复要比尝试循环安装磁盘的压缩 zstd 映像并从中读取文件容易得多）
重新启动并运行内存测试以消除 RAM 错误
关机，打开机箱，拔下并重新插入 SATA 和电源（驱动器）电缆。检查它们是否损坏。可能需要更换它们。
再次启动 LiveUSB 驱动器并执行磁盘安全擦除。如果您的驱动器出现问题，这也许会将其重置为工作状态（或者，如果磁盘无法挽救，这也许会导致它运行的最后一个命令）。这应该需要几分钟：

sudo blkdiscard -s /dev/sda

如果到目前为止一切顺利，请使用sudo zstdcat步骤 1 中的命令恢复备份。

如果磁盘仍然有问题并且 memtest 成功，那么我个人会判定该磁盘为坏的。

我们不能忽视，038 的数值意味着Reallocated_Sector_Ct情况正在变得糟糕，尽管制造商表示情况还没有“那么”糟糕。

啊！重要提示：如果在某个时候你让磁盘关闭超过 3 个月，这种情况很有可能发生。尽管人们普遍认为，如果 NAND 单元长时间断电（“长时间”可以是 7 天到 7 年，但最常见的情况是 3 个月），它们可能会失去存储能力。特别是如果它们很旧的话。

如果您遇到这种情况，只需执行上述步骤：备份数据、安全擦除磁盘、恢复备份。

祝你好运。

更新

答案1

检查 SMART

更新

更新 2

坏块

磨损均衡

电缆问题/主板问题

行动方针

相关内容