ZFS 池持续降级或出现故障

ZFS 池持续降级或出现故障

我有一个raidz1-0包含 5 个驱动器的池。我不确定具体什么时候,但突然间所有驱动器从始终没有ONLINE读取、写入或校验和错误变为随机出现各种问题。

    NAME                                            STATE     READ WRITE CKSUM
    Data                                            DEGRADED     0     0     0
      raidz1-0                                      DEGRADED   149   185     0
        gptid/905fe084-a003-11e9-9d12-000c29c8a62a  DEGRADED    57   127     5  too many errors
        gptid/2b75693a-9f09-11e9-8310-000c29c8a62a  ONLINE       7     5     5
        gptid/b8b4dd8f-82e9-11eb-b23f-000c29c8a62a  DEGRADED    70   171     5  too many errors
        gptid/b88beac0-e1f3-11e7-aeb0-000c29c8a62a  DEGRADED    51     6    14  too many errors
        gptid/4eb702b3-e2c3-11e7-9896-000c29c8a62a  FAULTED      8    13     2  too many errors

我已经做了一些基本的故障排除:

  • SMART 显示一切正常(除了温度比我希望的要高一些,大约 40C 左右)。所以驱动器看起来状况良好。没有坏扇区,没有待处理扇区,没有任何异常。到目前为止,所有驱动器都已运行了约 3 年。
  • 每个驱动器都通过单独的 SATA 连接直接连接到主板。我重新安装并更换了 SATA 电缆,但没有成功。

在某个时间点,我更换了池中的第三个磁盘。当时,它发出的错误最多,并且总是最先进入降级状态。我用一个全新驱动器已运行数月,立即发现了与池中的其他驱动器相同的问题。

即使过了zpool clear大约 5 个小时后,我仍得到以下状态。

    NAME                                            STATE     READ WRITE CKSUM
    Data                                            DEGRADED     0     0     0
      raidz1-0                                      DEGRADED     1     0     0
        gptid/905fe084-a003-11e9-9d12-000c29c8a62a  ONLINE       2     4     0
        gptid/2b75693a-9f09-11e9-8310-000c29c8a62a  ONLINE       0     0     0
        gptid/b8b4dd8f-82e9-11eb-b23f-000c29c8a62a  FAULTED      1    11     0  too many errors
        gptid/b88beac0-e1f3-11e7-aeb0-000c29c8a62a  ONLINE       1     1     0
        gptid/4eb702b3-e2c3-11e7-9896-000c29c8a62a  ONLINE       1     6     0

我不太清楚这里发生了什么事或者还需要看哪里。

我不知道这是否是巧合,但我注意到在升级 ZFS 池作为 FreeNAS 更新的一部分后开始发生这种情况(我认为是 11.2U - 是的,我正在运行 FreeNAS)

我能想到的最后一个问题就是 SATA 控制器坏了。但在解决这个问题之前,还有其他我可以排除故障的吗?这是针对业余家庭服务器的,更换控制器实际上意味着要换一台全新的服务器,所以如果可能的话,我想避免这种情况。不幸的是,没有剩余的 PCIe 端口可以安装外部控制器。

提前致谢!

答案1

经过近一个月的调试,可以肯定地说,这确实是芯片组的 SATA 控制器的问题。

@shodanshok 提醒我,英特尔芯片组存在“与年龄相关的严重 SATA 问题”,而经过一些额外的谷歌搜索,我发现我并不是唯一一个遇到此问题的人。

我买了一些新硬件,以及一个 LSI 9205-8I H220 来连接所有驱动器。无需对配置进行任何更改(除了更现代的主板 + CPU),ZFS 池就可以毫无问题地导入,并且池已经运行了一整天,没有出现任何校验和/读取/写入错误。到现在为止,错误数量应该有数百个了。这证实了问题出在板载 SATA 控制器上。

希望这能帮助遇到类似问题的人!

相关内容