HDD 出现故障,但更换 PCB 能修复吗?

HDD 出现故障,但更换 PCB 能修复吗?

我的 WD RED WD80EFAX HDD 上周突然坏了:我关闭了 Proxmox 服务器,重新启动后,驱动器开始“咔嗒”作响。它咔嗒作响了一会儿,然后停止了,不再发出这种声音。我事先没有收到任何 SMART 警告,回头看看 /var/lib/smartmontools/ attrlog,我认为那里没什么可担心的:

日期 SMART 属性 ID 当前的 生的
2023-10-24 09:34:51 1 100 0
2023-10-24 09:34:51 2 128 116
2023-10-24 09:34:51 3 253 2031728
2023-10-24 09:34:51 4 99 6689
2023-10-24 09:34:51 5 100 0
2023-10-24 09:34:51 7 100 0
2023-10-24 09:34:51 8 128 18
2023-10-24 09:34:51 9 95 41823
2023-10-24 09:34:51 10 100 0
2023-10-24 09:34:51 12 100 2276
2023-10-24 09:34:51 22 100 100
2023-10-24 09:34:51 192 93 9251
2023-10-24 09:34:51 193 93 9251
2023-10-24 09:34:51 194 127 279174185011
2023-10-24 09:34:51 196 100 0
2023-10-24 09:34:51 197 100 0
2023-10-24 09:34:51 198 100 0
2023-10-24 09:34:51 199 200 0

将其与日志文件中记录的第一个值进行比较:

日期 SMART 属性 ID 当前的 生的
2022-04-15 15:52:32 1 100 0
2022-04-15 15:52:32 2 128 116
2022-04-15 15:52:32 3 151 8617263560
2022-04-15 15:52:32 4 100 584
2022-04-15 15:52:32 5 100 0
2022-04-15 15:52:32 7 100 0
2022-04-15 15:52:32 8 128 18
2022-04-15 15:52:32 9 96 28636
2022-04-15 15:52:32 10 100 0
2022-04-15 15:52:32 12 100 557
2022-04-15 15:52:32 22 100 100
2022-04-15 15:52:32 192 99 1794
2022-04-15 15:52:32 193 99 1794
2022-04-15 15:52:32 194 144 279174185005
2022-04-15 15:52:32 196 100 0
2022-04-15 15:52:32 197 100 0
2022-04-15 15:52:32 198 100 0
2022-04-15 15:52:32 199 200 0

HDD 是通过外部 USB 外壳连接的,因此我首先使用另一个 USB 外壳进行了测试,以确保问题仍然存在,但不幸的是,问题仍然存在。我在 dmesg 中看到的内容是:

[25343.421737] usb 2-3: new SuperSpeed USB device number 8 using xhci_hcd
[25343.442848] usb 2-3: New USB device found, idVendor=152d, idProduct=1561, bcdDevice= 1.04
[25343.442854] usb 2-3: New USB device strings: Mfr=1, Product=2, SerialNumber=3
[25343.442857] usb 2-3: Product: SABRENT
[25343.442858] usb 2-3: Manufacturer: SABRENT
[25343.442860] usb 2-3: SerialNumber: DB98765432143
[25343.446053] scsi host1: uas
[25343.446591] scsi 1:0:0:0: Direct-Access     SABRENT                   0104 PQ: 0 ANSI: 6
[25343.448532] sd 1:0:0:0: Attached scsi generic sg0 type 0
[25353.377987] sd 1:0:0:0: [sda] 1953506646 4096-byte logical blocks: (8.00 TB/7.28 TiB)
[25353.378144] sd 1:0:0:0: [sda] Write Protect is off
[25353.378147] sd 1:0:0:0: [sda] Mode Sense: 53 00 00 08
[25353.378427] sd 1:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
[25353.378658] sd 1:0:0:0: [sda] Preferred minimum I/O size 32768 bytes
[25353.378662] sd 1:0:0:0: [sda] Optimal transfer size 268431360 bytes not a multiple of preferred minimum block size (32768 bytes)
[25384.996385] sd 1:0:0:0: [sda] tag#22 uas_eh_abort_handler 0 uas-tag 1 inflight: CMD IN
[25384.996393] sd 1:0:0:0: [sda] tag#22 CDB: Read(10) 28 00 00 00 00 00 00 00 01 00
[25385.016413] scsi host1: uas_eh_device_reset_handler start
[25385.148590] usb 2-3: reset SuperSpeed USB device number 8 using xhci_hcd
[25385.174465] scsi host1: uas_eh_device_reset_handler success
[25417.783354] scsi host1: uas_eh_device_reset_handler start
[25417.783528] sd 1:0:0:0: [sda] tag#24 uas_zap_pending 0 uas-tag 1 inflight: CMD
[25417.783535] sd 1:0:0:0: [sda] tag#24 CDB: Read(10) 28 00 00 00 00 00 00 00 01 00
[25417.915763] usb 2-3: reset SuperSpeed USB device number 8 using xhci_hcd
[25417.937381] scsi host1: uas_eh_device_reset_handler success
[25450.530389] scsi host1: uas_eh_device_reset_handler start
[25450.530552] sd 1:0:0:0: [sda] tag#26 uas_zap_pending 0 uas-tag 1 inflight: CMD
[25450.530556] sd 1:0:0:0: [sda] tag#26 CDB: Read(10) 28 00 00 00 00 00 00 00 01 00
[25450.658774] usb 2-3: reset SuperSpeed USB device number 8 using xhci_hcd
[25450.680523] scsi host1: uas_eh_device_reset_handler success
[25453.039632] sd 1:0:0:0: [sda] tag#9 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK cmd_age=99s
[25453.039639] sd 1:0:0:0: [sda] tag#9 Sense Key : Aborted Command [current]
[25453.039641] sd 1:0:0:0: [sda] tag#9 Add. Sense: No additional sense information
[25453.039644] sd 1:0:0:0: [sda] tag#9 CDB: Read(10) 28 00 00 00 00 00 00 00 01 00
[25453.039646] I/O error, dev sda, sector 0 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 2
[25453.039650] Buffer I/O error on dev sda, logical block 0, async page read
[25483.301277] sd 1:0:0:0: [sda] tag#10 uas_eh_abort_handler 0 uas-tag 1 inflight: CMD IN
[25483.301299] sd 1:0:0:0: [sda] tag#10 CDB: Read(10) 28 00 00 00 00 00 00 00 01 00
[25483.345279] scsi host1: uas_eh_device_reset_handler start
[25483.477571] usb 2-3: reset SuperSpeed USB device number 8 using xhci_hcd
[25483.499402] scsi host1: uas_eh_device_reset_handler success

虽然磁盘似乎报告了容量(7.28 TiB),但我无法smartctl显示任何内容,它卡在了-c-i并且显然-a。但是,在卡住期间,磁盘确实会“滴答”地有节奏地、相当安静地发出smartctl声音,但不是“咔哒”声。

我还尝试通过借来的 PCI 扩展卡通过 SATA 连接它,因为我的服务器是联想 Tiny,没有配备常规 SATA 连接器。在那里,我不断收到“sata 链接关闭”错误,尽管我不能 100% 确定这不是由于 PCI 扩展卡本身造成的,因为我没有另一个磁盘可以用它来测试以排除误报。我会看看是否可以在其他系统中再次测试它,以确保 100% 确定。

最后,我拆下了 PCB,没有看到任何直接损坏。我也清理了一下,但没什么作用。

我现在想知道smartctl没有报告任何内容,SATA 链接错误是否可能表示 PCB 故障?这将是一个奇怪的问题,因为磁盘通过 USB 外壳启动并部分报告自身情况,因此它不是完全地破碎的。

我有点困惑,因为我不知道是否应该这样做。此型号的替换 PCB 在 Aliexpress 上很容易买到,价格合理,但重新焊接 BIOS SMD 芯片需要相当多的工作。

PS:该硬盘仅包含备份,因此没有什么关键数据,但我仍然希望保留数据。我还打算为其设置 RAID(带操作系统的主 SSD 已经是 RAID1),但这不是当务之急。

答案1

如果只是备份数据,我的建议是扔掉它,换一个新的。问题或部分问题不在 PCB 上的可能性不为零,而且由于 BIOS 交换,更换 PCB 是一项艰巨的任务。出于这两个原因,更换 PCB 可能会白费力气。一个全新的驱动器应该只需要几百美元,而你花在更换上的时间肯定比这更有价值。

如果您想练习,请购买 PCB,更换 BIOS,然后查看它是否有效;但我怀疑它永远不会像新的那样值得信赖,重新组装后也是如此。对于业余爱好装备来说,当然可以,但对于您关心的真实实时(甚至备份)数据来说则不行。

答案2

我曾在一家提供数据恢复服务的公司工作,但我从未亲自做过这件事。还有其他人拆卸驱动器、更换磁头等等。人们告诉我,有些校准数据会从一个更改为另一个,显然,你不会将其转移到新的 PCB 上。

如果 PCB 确实坏了,这应该可以帮助你读取数据,这也是他们实际的做法。但不要以为驱动器会长时间这样工作,即使你没有拆开它的机械组件。然而,咔嗒声暗示机械部件出现问题。我预计头部问题,尽管没有可以被解读为早期预警的 SMART 读数。

在购买任何东西之前,请检查 PCB 和机械部件之间的弹簧触点。它们可能会腐蚀并失去接触。有些情况下,清洁后,驱动器可以再次完美运行并长时间工作。

相关内容