ZFS - L2ARC 缓存设备故障的影响(Nexenta)

ZFS - L2ARC 缓存设备故障的影响(Nexenta)

我有一个作为 NexentaStor 存储单元运行的 HP ProLiant DL380 G7 服务器。该服务器有 36GB RAM、2 个 LSI 9211-8i SAS 控制器(无 SAS 扩展器)、2 个 SAS 系统驱动器、12 个 SAS 数据驱动器、一个热备用磁盘、一个 Intel X25-M L2ARC 缓存和一个 DDRdrive PCI ZIL 加速器。该系统为多个 VMWare 主机提供 NFS。阵列上还有大约 90-100GB 的重复数据删除数据。

我曾遇到过两次性能突然下降的事件,导致 VM 客户端和 Nexenta SSH/Web 控制台无法访问,需要完全重启阵列才能恢复功能。在这两种情况下,都是 Intel X-25M L2ARC SSD 出现故障或“脱机”。NexentaStor 未能就缓存故障向我发出警报,但在(无响应的)控制台屏幕上可以看到常规 ZFS FMA 警报。

在此处输入图片描述

输出zpool status结果显示:

  pool: vol1
 state: ONLINE
 scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011
config:

        NAME                        STATE     READ WRITE CKSUM
        vol1                        ONLINE       0     0     0
          mirror-0                  ONLINE       0     0     0
            c8t5000C50031B94409d0   ONLINE       0     0     0
            c9t5000C50031BBFE25d0   ONLINE       0     0     0
          mirror-1                  ONLINE       0     0     0
            c10t5000C50031D158FDd0  ONLINE       0     0     0
            c11t5000C5002C823045d0  ONLINE       0     0     0
          mirror-2                  ONLINE       0     0     0
            c12t5000C50031D91AD1d0  ONLINE       0     0     0
            c2t5000C50031D911B9d0   ONLINE       0     0     0
          mirror-3                  ONLINE       0     0     0
            c13t5000C50031BC293Dd0  ONLINE       0     0     0
            c14t5000C50031BD208Dd0  ONLINE       0     0     0
          mirror-4                  ONLINE       0     0     0
            c15t5000C50031BBF6F5d0  ONLINE       0     0     0
            c16t5000C50031D8CFADd0  ONLINE       0     0     0
          mirror-5                  ONLINE       0     0     0
            c17t5000C50031BC0E01d0  ONLINE       0     0     0
            c18t5000C5002C7CCE41d0  ONLINE       0     0     0
        logs
          c19t0d0                   ONLINE       0     0     0
        cache
          c6t5001517959467B45d0     FAULTED      2   542     0  too many errors
        spares
          c7t5000C50031CB43D9d0     AVAIL   

errors: No known data errors

这并没有触发 Nexenta 内部的任何警报。

我以为 L2ARC 故障不会影响系统。但在这种情况下,它肯定是罪魁祸首。我从未见过任何关于 RAID L2ARC 的建议。从服务器中完全移除坏的 SSD 让我恢复运行,但我担心设备故障的影响(也许还有 NexentaStor 缺乏通知)。

编辑- 目前最好的选择目前 SSD 是否适用于 L2ARC 缓存应用程序?

答案1

ZFS 不执行磁盘 I/O,ZFS 下面的设备驱动程序执行磁盘 I/O。如果设备没有及时响应,或者像本例一样,破坏了扩展器上的所有其他设备,那么它不会被视为 ZFS 故障。ZFS 看到的只是缓慢的 I/O。

Intel X-25M 固件中存在一个错误,会影响其在高负载下的行为,并可能导致重置风暴。此问题会影响所有操作系统,并且无法在操作系统层解决。请联系您的硬件供应商进行修复或补救。

如果预期 L2ARC 能够满足读取要求,则将尝试在那里执行读取。然后 ZFS 依靠较低层驱动程序来报告错误。在这种情况下,驱动器会继续重置并重试长达 5 分钟,然后才会声明 I/O 失败,具体取决于驱动程序、设备和默认超时设置。只有在较低层驱动程序声明 I/O 失败后,ZFS 才会在池上重试。

NexentaStor 的卷检查和磁盘检查运行程序会查找其他错误消息并通过电子邮件和故障日志向您发出警报。磁盘检查运行程序在 3.1 版本中得到了改进,可帮助您针对 SSD 中损坏的固件所表现出的具体情况发出警报。

底线:您的硬件有故障,需要修理或更换。

答案2

您是否将 X25-M SSD 连接到背板?Nexenta 和通过背板访问 L2ARC 存在已知问题。最好的办法是将 SSD 直接连接到主板上的 SATA 端口。确保它也配置为使用 AHCI。

如果您在此服务器上运行任何关键任务,我会切换到 SLC SSD(如 X25-E 或 STEC SSD)。话虽如此,如果不是,您可能对 X25-M 也满意。

答案3

Ed,有几种你可以使用,从价格相对合理到相当昂贵。我更喜欢在所有情况下部署 SAS SSD,并且使用 STEC 和 Pliant 都取得了很好的效果。两者现在都提供 MLC 驱动器,该驱动器可以正常工作,并且具有 L2ARC 设备。尚未测试但即将推出的是 Seagate 提供的 SLC SAS 2.0 SSD,据说“价格不贵”。敬请期待……

—PB

相关内容