我有一个raidz1-0
包含 5 个驱动器的池。我不确定具体什么时候,但突然间所有驱动器从始终没有ONLINE
读取、写入或校验和错误变为随机出现各种问题。
NAME STATE READ WRITE CKSUM
Data DEGRADED 0 0 0
raidz1-0 DEGRADED 149 185 0
gptid/905fe084-a003-11e9-9d12-000c29c8a62a DEGRADED 57 127 5 too many errors
gptid/2b75693a-9f09-11e9-8310-000c29c8a62a ONLINE 7 5 5
gptid/b8b4dd8f-82e9-11eb-b23f-000c29c8a62a DEGRADED 70 171 5 too many errors
gptid/b88beac0-e1f3-11e7-aeb0-000c29c8a62a DEGRADED 51 6 14 too many errors
gptid/4eb702b3-e2c3-11e7-9896-000c29c8a62a FAULTED 8 13 2 too many errors
我已经做了一些基本的故障排除:
- SMART 显示一切正常(除了温度比我希望的要高一些,大约 40C 左右)。所以驱动器看起来状况良好。没有坏扇区,没有待处理扇区,没有任何异常。到目前为止,所有驱动器都已运行了约 3 年。
- 每个驱动器都通过单独的 SATA 连接直接连接到主板。我重新安装并更换了 SATA 电缆,但没有成功。
在某个时间点,我更换了池中的第三个磁盘。当时,它发出的错误最多,并且总是最先进入降级状态。我用一个全新驱动器已运行数月,立即发现了与池中的其他驱动器相同的问题。
即使过了zpool clear
大约 5 个小时后,我仍得到以下状态。
NAME STATE READ WRITE CKSUM
Data DEGRADED 0 0 0
raidz1-0 DEGRADED 1 0 0
gptid/905fe084-a003-11e9-9d12-000c29c8a62a ONLINE 2 4 0
gptid/2b75693a-9f09-11e9-8310-000c29c8a62a ONLINE 0 0 0
gptid/b8b4dd8f-82e9-11eb-b23f-000c29c8a62a FAULTED 1 11 0 too many errors
gptid/b88beac0-e1f3-11e7-aeb0-000c29c8a62a ONLINE 1 1 0
gptid/4eb702b3-e2c3-11e7-9896-000c29c8a62a ONLINE 1 6 0
我不太清楚这里发生了什么事或者还需要看哪里。
我不知道这是否是巧合,但我注意到在升级 ZFS 池作为 FreeNAS 更新的一部分后开始发生这种情况(我认为是 11.2U - 是的,我正在运行 FreeNAS)
我能想到的最后一个问题就是 SATA 控制器坏了。但在解决这个问题之前,还有其他我可以排除故障的吗?这是针对业余家庭服务器的,更换控制器实际上意味着要换一台全新的服务器,所以如果可能的话,我想避免这种情况。不幸的是,没有剩余的 PCIe 端口可以安装外部控制器。
提前致谢!
答案1
经过近一个月的调试,可以肯定地说,这确实是芯片组的 SATA 控制器的问题。
@shodanshok 提醒我,英特尔芯片组存在“与年龄相关的严重 SATA 问题”,而经过一些额外的谷歌搜索,我发现我并不是唯一一个遇到此问题的人。
我买了一些新硬件,以及一个 LSI 9205-8I H220 来连接所有驱动器。无需对配置进行任何更改(除了更现代的主板 + CPU),ZFS 池就可以毫无问题地导入,并且池已经运行了一整天,没有出现任何校验和/读取/写入错误。到现在为止,错误数量应该有数百个了。这证实了问题出在板载 SATA 控制器上。
希望这能帮助遇到类似问题的人!