移动后 6 周内 BCLK/PCIe 时钟不稳定 + 4 个硬盘故障。更换了主板和 CPU,但问题仍然存在,新硬盘也出现故障

移动后 6 周内 BCLK/PCIe 时钟不稳定 + 4 个硬盘故障。更换了主板和 CPU,但问题仍然存在,新硬盘也出现故障

我遇到了几个我认为有关联的问题。这些问题始于 6 周前我将电脑搬到新家时。

  • 我的 CPU 的总线时钟 (BCLK 和 PCI 时钟) 比 BIOS 中设置的低约 2Mhz,并且一直在 97 到 99MHz 之间波动。如果我在 BIOS 中设置 98,它会在 95-98 之间波动。如果我设置 103,它会在 97 和 103 之间波动。在两个主板上都是如此(稍后会详细介绍)。
  • 自从这个问题出现以来,我已经经历了4次硬盘故障。 https://www.youtube.com/watch?v=yf7qZIZJBBU

我一直在更换硬件,试图找出 BCLK 问题的原因,我担心这会导致 SATA 总线时钟波动和驱动器故障。主板和 CPU 已更换,但问题仍然存在。即使没有安装任何 PCI 卡、没有连接任何硬盘,并且只安装了一根内存条 + 启动 Windows 所需的 SSD,BCLK 问题仍然存在。截至目前,唯一不变的是 PSU、SSD、机箱+风扇、鼠标+键盘和相同的 Windows 10 安装。

我本来想立即排除电源问题,但似乎供应受到了 COVID19 的影响。我本来打算组装一台全新的 PC,但同样,没有现货。我CORSAIR HX Series HX750今天才刚刚订购了一台有现货的,而且要过一个多星期才会到货。但现在我存储在这些硬盘上的数据处于危险之中,我不确定电源是否是罪魁祸首,因为它的电压符合规格,而且似乎可以毫无问题地处理负载。但是我没有示波器来排除它。 编辑:显然我没有得到新的电源……

我们很遗憾地通知您,在处理您的订单时,我们的仓库发现我们剩下的最后一件商品已损坏,不适合完成您的订单。我们对给您带来的不便深表歉意。感谢您的理解

出现问题时的原始硬件:

PSU: Rosewill CAPSTONE Series 450W 80 Plus Gold
Mobo: ASRock z77 Extreme4 
      (Note: Enabling spread-spectrum surprisingly would stabilize the clock fluctuations to within a single MHz, 
             however it still ran -2MHz under what was set in BIOS) 
CPU: i7-3770k @ 4.4GHz @ 102.4Mhz Bus Clock 
    (Note: 102.4*43=4403Mhz and was originally part of the overclock.
           But afterwords it was needed to achieve ~100Mhz+-0.7 with spread-spectrum.
           Without spread-spectrum clock would swing between 97 and 102.4 and every where in between)
Memory:  Slots 0 & 2: Crucial Ballistix Sport XT 16GB Kit 8GBx2 DDR3 1600 MT/s PC3-12800 CL9
         Slots 1 & 3: Corsair CMZ16GX3M2A1600C10 Vengeance 16GB (2x8GB)
PCIe16x GPU: Gigabyte GeForce GTX 1070 G1
PCIe1x:      I/O Crest 4 Port SATA III PCI-e 2.0 x1 Controller Card
PCI:         Creative Sound Blaster X-Fi XtremeGamer
SSDs: C:\ Samsung 850 EVO 500GB
      A:\ Samsung 850 EVO 500GB
      D:\ (Stripped StoragePool) Samsung 840 EVO 250GB + Crucial M4 256GB
HDDs: Connected via SATA Controller card and managed by Windows Storage Spaces
      HGST 4TB HDN724040ALE640 @ 46,6522hrs(5.31yrs) 
      HGST 4TB HDN724040ALE640 @ 31,859hrs(3.64yrs)
      (failed) HGST 4TB HDN726040ALE614 @ 16,014hrs(1.83yrs)
      (failed) Seagate 4TB ST4000DM005 @ 12,000hrs(1.36yrs)

自问题出现以来的硬件变化如下。我以为问题出在主板上,并找到了一个二手主板+CPU 组合的交易,可以保留到 Zen3 发布。
[全面披露]:我别无选择,我以为可能是插座里有污垢,或者在移动过程中发生碰撞后,针脚没有正确接触。我试图清洁它,结果针脚弯曲,导致 RAM 插槽 0 和 2 无法使用,并以某种方式破坏了 Intel TurboBoost 和解锁的倍频器。由于 BCLK 问题,CPU 卡在 3.5Ghz,实际上是 3395Mhz。我曾希望这能解决我怀疑导致硬盘 IO 错误和故障的 BCLK 问题。
编辑:这显然不清楚?之后我用下面的硬件替换了主板 + CPU。新主板上仍然存在 BCLK 问题。

PSU: (In progress) CORSAIR HX Series HX750 
Mobo: MSI Z97s Krait Edition
      (Note: This mobo has no spread-spectrum option. 
             Attempts to set BCLK higher just increase how far BCLK swings upwards from 97MHz.
             The option to unlink PCIe freq from BCLK is greyed out and doesn't appear to be configurable)
CPU: i7-4790k @ stock 
HDDS: I've replaced all SATA cables with new expensive cables. The current state is:
      HGST Deskstar 4TB HDN724040ALE640 @ 46,6522hrs(5.31yrs) [currently connected]
      HGST Deskstar 4TB HDN724040ALE640 @ 31,859hrs(3.64yrs) [currently connected]
      (failed) HGST Deskstar 4TB HDN726040ALE614 @ 16,014hrs(1.83yrs) 
      (failed) Seagate Barracuda 4TB ST4000DM005 @ 12,000hrs(1.36yrs) 
      (failed) HGST Ultrastar 4TB HUS724040ALE640 @ ~30 minutes (WinDFT failed quick surface test)
      (failed) WD Gold 6TB Enterprise Class WD6003FRYZ @ 297hrs(12days) [currently connected]

在将 Steam 游戏从 SSD 存储池移至 HDD 存储池时,WD Enterprise Gold 出现故障,并发出了令人震惊的声音,这种声音我以前从未听过。我从未听过“磁头崩溃”的声音,但我能想象到它的声音。Windows 立即通知物理磁盘故障,事件日志显示磁盘硬件错误。由于每秒磁盘错误数量巨大(Windows 资源管理器现在非常慢),原始错误报告已从日志中删除。)

除了到货即坏的 HGST Ultrastar 外,没有硬盘报告过任何 SMART 错误。就连 StorageSpaces 目前报告为故障的 WD Gold 也没有报告过。

  • cmd> wmic diskdrive get status:报告所有驱动器OK
  • cmd> wmic /namespace:\\root\wmi path MSStorageDriver_FailurePredictStatus:不预测任何当前连接的驱动器将很快发生故障。
  • PS> Get-PhysicalDisk状态:
Number FriendlyName              MediaType CanPool OperationalStatus            HealthStatus Usage            Size
------ ------------              --------- ------- -----------------            ------------ -----            ----
4      Samsung SSD 850 EVO 500GB SSD       True    OK                           Healthy      Auto-Select 465.76 GB
2      WDC WD6003FRYZ-01F0DB0    HDD       False   {Failed Media, IO Error, OK} Unhealthy    Retired       5.46 TB
3      Samsung SSD 840 EVO 250GB SSD       False   OK                           Healthy      Auto-Select 232.75 GB
0      HGST HDN724040ALE640      HDD       False   OK                           Healthy      Auto-Select   3.64 TB
1      HGST HDN724040ALE640      HDD       False   OK                           Healthy      Auto-Select   3.64 TB
6      Samsung SSD 850 EVO 500GB SSD       True    OK                           Healthy      Auto-Select 465.76 GB
5      M4-CT256M4SSD2            SSD       False   OK                           Healthy      Auto-Select 238.25 GB

“IO 错误”与 StorageSpaces 淘汰 DeskStar 和 Barracuda 的原因相同,只是它们与“失去通信”配对。这就是我更换所有 SATA 电缆的原因。然而,“媒体故障”是我过去不记得见过的东西(UltraStar 的使用寿命不够长)。在过去,Lost Communication, IO-Error, OK我会冒险重置物理磁盘.但命令是粗略地说有点像俄罗斯轮盘赌。它会自动决定采取何种行动,而其中一项行动就是擦除数据,而不是挽救数据。

在前 3 次失败之后,我以为 StorageSpaces 可能只是出了问题,错误地报告了这些失败。我曾希望,只要我有一个额外的驱动器作为热备用,例如 HDN726040ALE614,它就会恢复,我可以在它完成数据迁移后重新添加卷。但在那之前,我决定在存储池之外测试 HDN726040ALE614 和 ST4000DM005 作为常规 NTFS 卷。它们通过了所有短期制造商测试(我没有尝试长期测试,因为 ETA 长达 30 多个小时)。但是,一旦我尝试实际复制文件 - 最终 HDN726040ALE614 会开始点击,ST4000DM005 会执行其不断的旋转、点击、旋转减速例程,如视频中所示。当它们这样做时,Windows 资源管理器会无响应,有时整个 PC 会锁定(鼠标和所有)。

奇怪的是,即使完全冻结,我发现我可以通过拔下 SATA 电缆来解除 Windows 冻结,然后重新插入,这有时甚至会打破驱动器卡住的循环。通常他们只是回到原点,但通常允许 Windows 继续。我还必须重新确认这一点,但我认为这可能是一种有效的方法,让 StorageSpaces 将驱动器故障原因切换为“失去通信”并允许运行Reset-PhysicalDisk

此外,正如在发布的 Youtube 视频中看到的,如果 PC 水平放置,则更有可能发生“死亡点击” - 当水平放置时,HDN726040ALE614 很可能会点击一下,PC 永远不会启动。并且正如在视频的后半部分中看到的,当 PC 垂直放置时,Seagate Barracuda 成为对手。

我已经排除了 PCIe SATA 控制器,因为驱动器直接插入主板时仍会继续表现出这种行为。

  • PSU 是否会导致总线时钟不稳定?什么可能导致总线波动?
  • 不稳定的总线时钟是否会导致高清故障?为什么最旧的驱动器可以正常工作?
  • 硬盘目前如此不可靠,可能是因为 COVID19 对制造商的影响吗?还是我真的运气不好?
  • 有什么建议、推荐或行动方案吗?我几乎不知所措。

编辑:

Windows 整晚都在努力从 WD6003FRYZ 恢复数据,并将其移动到较旧的 DeskStars,这些设备现在几乎已满负荷运行。以下是这个过程https://www.youtube.com/watch?v=hP2ec9Nswkk
我不知道它是如何管理的,因为存储空间是 3 列,我以为这意味着至少需要 3 个驱动器。然而,性能却很糟糕。虽然我仍然无法让 WD6003FRYZ 抛出 SMART 错误或无法通过 WD Data LifeGuard 诊断快速测试,但它确实很快就无法通过扩展测试。我不确定电源问题如何会导致坏扇区?我真的运气不好吗?
在此处输入图片描述

相关内容