去年我买了一个新的外置硬盘(驱动器 1),不到 2 个月就毫无征兆地坏了。我换了一个不同的新外置硬盘(驱动器 2),现在四个月后它也开始出现故障。我有一个辅助外置硬盘(驱动器 3),这个硬盘已经用了好几年了,一直运行良好……直到现在。它开始弹出分页操作错误。
我根本不插拔这些驱动器,也很少移动它们,如果一个月一次就太多了的话。它们旋转时切勿触摸它们。它们静静地平放在角落里。
所有三个驱动器都通过 USB 连接到同一块主板。我没有对任何东西进行超频,计算机插入一个带有保险丝的基本电源板,该保险丝插入墙上插座。我还以老方法将两个 SSD 插入主板,即 SATA+电源来自 PSU。这些看起来还不错。
今年年初,我所在的地区出现了电源问题,但问题已经解决,第一个驱动器在此之前就坏掉了。电源也很旧,是 Corsair CX430。我没有遇到任何其他典型的电源故障迹象,只有硬盘坏了。
我读过有关可疑驱动器故障的文章,大多数人都指出电源故障,但问题始终出在内置硬盘上,而不是便携式硬盘上。如果是电源问题,难道不会出现其他问题吗?
也许我只是运气不好,连续遇到了两个坏驱动器,第三个驱动器也快要报废了,但如果不是运气不好,我就需要弄清楚到底发生了什么,因为它让工作变成了一场噩梦。我需要一个好的行动计划来诊断这个问题,但我有点迷茫。我不知道在这种情况下我可以对电源进行哪些测试来排除它,也不知道我可以对主板进行哪些测试,如果可以的话能确实杀死外部驱动器。
编辑以添加额外信息
我将把驱动器标识为驱动器 1:新的,最先发生故障,不再属于我;驱动器 2:新的,发生故障;驱动器 3:旧的,可能发生故障。
所有驱动器都已连接到或曾经连接到主板上的 USB 3.0 端口。驱动器 1 和 2 连接到同一个端口,但在出现问题后,我尝试了所有其他端口。尚未仔细检查端口。驱动器 3 连接到不同的集线器或主板端口集群。它们相距很远,我无知地猜测这些是不同的电路:
我已将外围设备插入剩余的 USB。没有发现任何异常。
CrystalDisk 读数带有下方的 SMART 数据。它们都是内部尺寸为 2.5 英寸的消费级便携式硬盘。
驱动器 2(新的外部硬盘驱动器,目前出现故障)
Chkdsk /r
未检测到坏块。它可以被读取和写入,如果不加理会,事件查看器中不会显示任何错误,但在正常使用期间,写入较大的 100MB 以上的文件将开始引发以下事件警告:
ID 51, warning
:“分页操作期间在设备(磁盘)上检测到错误。”(在第一次写入失败之前,肯定有迹象表明它将再次写入失败)ID 153, warning
: “重试了逻辑块地址 0x------ 处的 IO 操作”(第一次失败后启动,逻辑块发生变化,有时是 0x0)
这时候如果你坚持要写,他们接下来会说:
ID 140, warning
:“系统无法将数据刷新到事务日志。(...) 故障状态:{驱动器未就绪}”(第一次故障)ID 154, error
: “由于硬件错误,逻辑块地址 0x------ 处的 IO 操作失败”ID 137, error
: “卷 D: 上的默认事务资源管理器遇到不可重试的错误,无法启动。数据包含错误代码。”ID 140, warning
:“系统无法将数据刷新到事务日志。(...)失败状态:由于致命的设备硬件错误导致请求失败。”
前 2 个警告在使用过程中并不明显,但一旦发生错误,它就会在操作系统中冻结,直到我拔下并再次插入。最严重的迹象是当它无法写入时它会点击。不是不停地点击,而是点击一次就太多了,对吧?
驱动器 3(旧的外部驱动器,目前运行不稳定)
必须运行chkdsk
两次,第一次扫描就卡住了。还报告了 0 个坏扇区。
它还会提示静默警告。在操作过程中不会出现任何明显迹象,也不会发生卡顿:
ID 153, warning
: “重试了逻辑块地址 0x------ 处的 IO 操作”(已经持续了一段时间,逻辑块发生变化,有时是 0x0)ID 51, warning
:“分页操作期间在设备(磁盘)上检测到错误。”(昨天开始,也预测即将失败)
从昨天开始,它会随机导致向其写入大文件(1GB+)的软件停止并显示错误。此时它会断开连接并重新连接,之后即可访问。事件查看器在这些时刻显示以下错误:
ID 50, warning
:“{延迟写入失败} } Windows 无法保存文件 D:(something) 的所有数据”(变化,有时只是卷根)ID 140, warning
:“故障状态:指定了一个不存在的设备。(...) 故障状态:指定了一个不存在的设备”
我还没有听到任何咔嗒声。
驱动器 1(第一个发生故障的新外部驱动器,不再属于我)
它还显示了分页错误(51),这些错误在几天内都没有引起注意,随后在驱动器无法写入时又出现了这些错误:
ID 7, warning
:“设备 (DISK) 有一个坏块。”ID 154, error
: “由于硬件错误,逻辑块地址 0x------ 处的 IO 操作失败”
这次事故来得突然,致命的,系统死机,之后再也无法访问;我尝试至少恢复一些文件,但它甚至不会出现在 DISKPART 或 Linux 中。这次事故之后,系统还不断发出死机的咔嗒声。
编辑 2:它仅在主板温度较高的情况下发生
我按照建议的测试,在各种条件下(从同一台 PC 和操作系统到不同的 PC 和操作系统)在磁盘之间传输 5GB 文件。当我无法在不同条件下重现问题时,甚至在原始 PC 上也无法重现问题和操作系统,我意识到在磁盘开始出现故障的日子里以及我运行测试时有一个因素发生了变化:天气。
当天气从酷热转为异常温和时,温度下降了 10ºC 以上。今天天气稍微暖和了一些,我可以在相同的 PC 和操作系统上可靠地重现该问题。我还得到了一台不稳定风扇的帮助(详情见最后)。
当磁盘 2 因硬件故障而出现常见的 i/o 错误并冻结时,三个温度上升:
包含操作系统的 M.2 SSD 温度达到 79ºC。它位于主板底部,PCH 正下方。
PCH 报告温度为 59ºC+。
“温度 5”传感器报告温度超过 69ºC。我猜这是 VRM,没有其他神秘传感器会这么热。
降低 SSD 温度并不能阻止错误,但提高 PCH/temp 5 温度可以。在这些值下,磁盘 2 恢复正常工作:
我知道 CPU 和 GPU 都不是特别热,但我没有注意主板,当然也没有注意 SSD 的温度。根据我读到的信息,这些主板的温度读数并不是那么高,但由于风扇的原因,它们比我的系统中通常的温度要高 (~50/60ºC)。
我正在努力找出确切的温度截止点,到目前为止,PCH 温度为 59ºC,温度为 56ºC,这是磁盘停止响应的最低温度。除其他事项外,PCH 还管理 USB 数据和电源,不是吗?
粉丝问题
我的机箱有一个 120 毫米前置风扇,这是一个小问题。我用水冷散热器/风扇替换了原来的风扇,兼作电脑的排气装置。它插在 CPU_FAN 上,很好地完成了它的双重任务。它和这个版本中的其他东西一样老旧,我将原厂曲线调整得稍微激进一些。
在运行测试时,我发现风扇出了问题:它卡在了最低速度上,而它不应该这样。它忽略了 Windows 主板实用程序设置的曲线,尝试让它以固定的 100% 旋转,结果让它随机以 100% 旋转了几秒钟,而没有像预期的那样保持旋转速度。不过,它确实尊重了 UEFI 设置,在我通过 UEFI 更改设置后,它又开始响应实用程序。
很奇怪,但我不认为这是问题的根本原因,它只是通过让温度更快更高而加剧了问题。我担心这样的温度从长远来看会降低某些组件的性能,因为回想起来,我的电脑自今年年初以来一直太安静了,到现在为止我们已经经历了 4 到 5 次热浪。