我正在使用 SuperMicro 3U 机箱和主板构建一个大存储箱,该机箱和主板运行 Xeon E5-2640 v4 CPU、64 GB RAM 和 16 插槽 SuperMicro/LSI SAS2 6Gbs 背板,由 LSI 9207-8i HBA 以 IT 模式驱动。机箱中有 16 个 3TB 磁盘。
我可以毫无问题地创建一个 16 磁盘的 ZFS 池。当我对它进行大量写入操作时,一切都会出错。假设我将一个 50GB 的文件复制到 ZFS 池以对该池进行压力测试。我每 3 秒使用 zpool status 查看池的状态。在开始文件复制后的 20 秒内,所有 16 个磁盘都开始显示大量写入错误,不到一分钟,大多数磁盘都出现故障(驱动器托架中的红色 LED 甚至亮起)。
起初,我以为 Ubuntu 中的 ZFS 实现可能存在问题(我不想伤害任何人的感情),所以我销毁了 ZFS 池,擦除了所有 16 个磁盘,并使用 Linux 软 RAID(mdadm)创建了相同的 16 个磁盘 RAID6 阵列。启动相同的复制测试,阵列再次崩溃。所有磁盘上都出现了大量写入错误。
我的卡上装有固件 20.00.07.00(发布的 P20 的最新版本),因为该盒子之前运行过 TrueNAS 12,而 TrueNAS 需要 P20。不过,P20 的名声确实不好(VMware 认证 P19 是 vSAN 6.x 的最高版本,这是有原因的,因为 vSAN 会丢弃使用 P20 的磁盘),因此,我使用 sas2flash.efi 擦除了控制器并将 P19 放在上面,希望这样可以解决问题。但并没有。大量写入仍然会导致 ZFS 和 Linux MD 阵列完全崩溃,所有 16 个磁盘在 1 分钟内都会出现大量写入错误。磁盘脱机、被标记为有故障等等。重新启动并清除 ZFS 后,一切又恢复正常,而且当我没有在其上放置大量写入负载时,一切仍然保持良好。
我对 Linux MD 和 ZFS 有丰富的经验,尝试了很多方法。结果都一样。固件 P20 或 P19 没什么区别。不过,为了安全起见,我还是坚持使用 P19。
疯狂的是,这个机箱运行 xpenology(被破解的 Synology DSM)和 TrueNAS 时完全没有问题。坚如磐石,性能出色。然后我擦除了所有磁盘,安装了 Ubuntu Server 20.04,但无法让阵列稳定运行。
我完全不知所措。我手头还有另一张 LSi 9207-8i 卡,所以我换了卡,但问题仍然存在。我还交换了背板和 HBA 之间的电缆。什么也没用。
我的直觉告诉我这肯定是固件/驱动程序问题,但我读过许多关于此卡和 FW 组合的成功案例。