SSD SMART 错误和奇怪的 dmesg 错误，这是一个快要坏掉的磁盘吗？

2024-6-16 • tag-icon

我开始注意到我的dmesg日志和使用了 4 个月的 SSD 中出现了一些奇怪的现象。例如：

[    9.647535] ata7.00: exception Emask 0x10 SAct 0x7ffffbff SErr 0x300000 action 0x6 frozen
[    9.647542] ata7.00: irq_stat 0x08000000, interface fatal error
[    9.647546] ata7: SError: { Dispar BadCRC }
[    9.647551] ata7.00: failed command: READ FPDMA QUEUED
[    9.647558] ata7.00: cmd 60/b0:00:18:51:0f/03:00:07:00:00/40 tag 0 ncq 483328 in
[    9.647558]          res 40/00:18:c8:5c:0f/00:00:07:00:00/40 Emask 0x10 (ATA bus error)
[    9.647561] ata7.00: status: { DRDY }
[    9.647564] ata7.00: failed command: READ FPDMA QUEUED
[    9.647570] ata7.00: cmd 60/00:08:c8:54:0f/04:00:07:00:00/40 tag 1 ncq 524288 in
[    9.647570]          res 40/00:18:c8:5c:0f/00:00:07:00:00/40 Emask 0x10 (ATA bus error)
[    9.647573] ata7.00: status: { DRDY }

我还注意到我的 SMART 值很奇怪：

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       16
199 UDMA_CRC_Error_Count    0x0032   100   100   000    Old_age   Always       -       23

运行时坏块似乎很稳定，但它出现每次重启后，UDMA CRC 错误都会增加（可能是由于Dispar BadCRC上述原因），这不太好。

在网上研究之后，我尝试更换 SATA 电缆，但看起来没有帮助。

系统启动后，我真的没有注意到有什么不同，一切似乎都在运行，但我不能确定，因为它是系统磁盘，而且没有被写入太多内容。

我见过关于禁用 NCQ 的提示但是我还有另外两个磁盘受益于 NCQ，并且没有关于如何仅为该驱动器禁用它的提示。

这是坏掉的磁盘吗？知道如何找出原因吗？

以下是其余奇怪的 dmesg 行：http://pastebin.com/HCxiPwkM

smartctl 输出：http://pastebin.com/h4c4MkEb

编辑：

这也发生在机器运行时：

Jun 13 00:27:48 kernel: [21674.310312] ata7.00: exception Emask 0x10 SAct 0x400 SErr 0x100000 action 0x6 frozen
Jun 13 00:27:48 kernel: [21674.310317] ata7.00: irq_stat 0x08000000, interface fatal error
Jun 13 00:27:48 kernel: [21674.310320] ata7: SError: { Dispar }
Jun 13 00:27:48 kernel: [21674.310323] ata7.00: failed command: READ FPDMA QUEUED
Jun 13 00:27:48 kernel: [21674.310327] ata7.00: cmd 60/00:50:00:36:4f/01:00:00:00:00/40 tag 10 ncq 131072 in
Jun 13 00:27:48 kernel: [21674.310327]          res 40/00:50:00:36:4f/00:00:00:00:00/40 Emask 0x10 (ATA bus error)
Jun 13 00:27:48 kernel: [21674.310329] ata7.00: status: { DRDY }
Jun 13 00:27:48 kernel: [21674.310333] ata7: hard resetting link
Jun 13 00:27:49 kernel: [21674.802471] ata7: SATA link up 6.0 Gbps (SStatus 133 SControl 330)
Jun 13 00:27:49 kernel: [21674.843512] ata7.00: configured for UDMA/133
Jun 13 00:27:49 kernel: [21674.845404] ata7: EH complete

根据此链接，PSU 可能是原因..？

编辑2

今天尝试稍微改变一下，我的所有磁盘都在同一个 PSU 电缆上，现在它们不在了，但这似乎没有帮助......

Runtime_Bad_Block       18
UDMA_CRC_Error_Count    25

答案1

将所有磁盘移至内部 SATA 控制器几天后，错误消失了，并且 SMART 值也没有增加。

现在还有待观察这是否是我的 SSD 和 Marvell 控制器之间的特定不兼容性，或者控制器已经完全坏了；大概发生了什么事...但那是另一天的话题。

答案1

相关内容