FreeNAS：ZFS 阵列“删除”多个驱动器

2024-10-13 • tag-icon

这里的情况有点令人担忧。希望有人能帮我弄清楚发生了什么。

背景

大约五年前，我构建了一个运行 FreeNAS 的 ZFS 服务器，用于备份和存储，从 6x 8TB 磁盘 RAID-Z2 阵列开始。至今，它仍运行良好。除了提供 cifs 共享之外，该设备没有其他作用。

该服务器大部分时间处于离线状态（因为它耗电量巨大），偶尔需要启动进行备份、复制文件、清理卷等等。

几年前，我决定（按计划）用另外六块磁盘扩展此设置，也采用 RAID Z2。此阵列与第一个阵列连接到相同的硬件，现在已“移除”了一些单独的磁盘（一次一个），我将其替换。这些磁盘都通过了表面扫描，因此我认为与 ZFS 存在某种不兼容问题。

已移除的驅動器

上周我再次启动它，它突然决定移除两个驱动器。由于这是在不丢失卷的情况下可以丢失的最大容量，我立即订购了两个新的，用 Western Digital Data Lifeguard 进行了全面读取测试（均通过）并更换了旧的。阵列重新镀银并再次被标记为“健康”。我还用 DLG 测试了移除的驱动器，令人惊讶的是它们也通过了。重新镀银完成后，我继续对该卷进行备份。

问题

我刚刚发现六个驱动器中有四个已被移除，导致卷不可用，而不是降级。这包括两个全新的驱动器和另外两个驱动器，其中一个驱动器大约在五天前也暂时出现问题，但似乎已经自行恢复。第四个被移除的驱动器似乎直到现在都运行正常。

我的问题是：是什么原因造成的？（当然，我怎样才能恢复音量并最终防止这种情况再次发生？）

我正在研究一些途径，如果能提供任何意见我将非常感激:)

力量： 由于这是在压力下发生的，我想知道这是否是电源问题？ PSU 是 Seasonic G 系列 G-550W PCGH 版，应该足够了（据我回忆，HDD 还处于交错通电状态）。还有一点与此相反，两个阵列通常同时进行清理，并且在现在不可用的卷上重新同步两个驱动器可以毫无问题地完成。几天前，我将一些大文件复制到了第一个阵列，这也没有造成问题。如果一个 6x8TB 阵列可以在压力下保持健康，为什么另一个阵列在同样的情况下不能呢？请注意，它们并没有同时承受压力，并且之前有较长的一段时间两个卷都没有问题。

温度： 最麻烦的两个驱动器位于主驱动器后面的第二个驱动器托架中。虽然到达这两个驱动器托架的空气温度会升高，但我还在第二个托架后面增加了一个风扇，可以主动吸出那里的空气（通过密封隔板，空气会专门流到这个托架周围），因此应该会有更高的气流。

恐怕我还没来得及设置硬盘温度监控（除非有我不知道的默认功能）。CPU 温度受到监控，但在这方面当然没有帮助。有问题的磁盘也从报告概览中消失了，所以我现在甚至看不到它们的 i/o 历史记录。

控制器： 第二个阵列连接到 Delock PCI Express SATA 控制器。我想知道这个东西是否无法应对数据吞吐量？在这种情况下，我不确定如何测试这一点。我也不确定为什么四个驱动器被移除，而同一阵列中的另外两个驱动器一直正常运行到现在（报告为“在线”）。

SATA 电缆： 我还需要测试这些，所以尚不确定。电缆整齐地收起来，不会弯曲，但它们当然会随着时间的推移而失效。由于电缆问题，同一天同一阵列中的四个驱动器无法使用的可能性使这在我的怀疑名单中处于非常低的位置。

硬件：

主板：MSI C236M 工作站（带六个 SATA 端口，由阵列 #1 使用）
中央处理器：英特尔至强 E3-1275 v5
记忆：金士顿 KVR21E15D8K2 x2 (ECC)
电源: 海韵 G 系列 G-550W PCGH 版
第二控制器：Delock PCI Express x2 卡 -> 10 x 内部 SATA III - LP
数组 #1（RAID-Z2 中的 6x 8TB，现已稳定运行 5 年）：
- WD80EFZX x3
- ST8000VN0002 x2
- ST8000DM002 x1
数组 #2（RAID-Z2 中为 6x 8TB）：
- WD80EFAX（无问题）
- ST8000VN0022（之前曾被移除，DLG已通过，目前运行正常）
- WD80EFAX x2（现有驱动器，现在也已移除）
- WD80EFZZ x2（新的替换驱动器，现已移除）
- ST8000VN0022 x2（几天前已移除，已用 WD80EFZZ x2 替换）

相关内容