即使更换磁盘后,raidz2 上仍然存在读/写/cksum 错误 (Netapp DS4243)

即使更换磁盘后,raidz2 上仍然存在读/写/cksum 错误 (Netapp DS4243)

我有一个曾经工作但现在降级的 zfs 池,配置如下,几周来我一直在尝试通过更换和重新更换磁盘来修复该池,结果在相同的托架上再次出现相同的问题。

几周前

        NAME                        STATE     READ WRITE CKSUM
        zpool                       DEGRADED     0     0     0
          raidz2-0                  DEGRADED     0     0     0
            wwn-0x50000c900040b558  ONLINE       3   159     0
            wwn-0x50000c900040a134  ONLINE       0     0     0
            wwn-0x50000c900040f8b0  ONLINE       0     0     0
            wwn-0x50000c90003fd4c4  ONLINE       0     0     0
            wwn-0x50000c90003fe7fc  ONLINE       0     0     0
            wwn-0x50000c9000409f8c  ONLINE       0     0     0
            scsi-3500605ba010cb160  ONLINE       0     0     0
            wwn-0x50000c900015436c  ONLINE       0     0     0
            replacing-8             UNAVAIL      3 35.9K     0  insufficient replicas
              2597997485925153301   FAULTED      0     0     0  was /dev/sdl1
              sdaa                  FAULTED     20 27.0K     0  corrupted data
              sdaa                  FAULTED      3 9.27K     0  too many errors
            wwn-0x50000c900040a0a0  ONLINE   5.74K 78.3K     0
            wwn-0x50000c90004104fc  ONLINE       0     0     0
            wwn-0x50000c90003fc900  ONLINE       0     0     0
          raidz2-1                  ONLINE       0     0     0
            wwn-0x500605ba00776c40  ONLINE       3     2     2
            wwn-0x500605ba00a89b18  ONLINE       0     0     0
            wwn-0x50000c90003fc944  ONLINE       0     0     0
            wwn-0x50000c90003fbdf0  ONLINE       0     0     0
            wwn-0x50000c90003fbdf4  ONLINE       0     0     0
            wwn-0x50000c9000409f24  ONLINE       0     0     0
            wwn-0x500605ba0108354c  ONLINE       0     0     0
            wwn-0x500605ba00bfceec  ONLINE       0     0     0
            wwn-0x50000c900040ac94  ONLINE       0     0     0
            wwn-0x50000c900040f968  ONLINE       0     0     0
            wwn-0x50000c90003fbe10  ONLINE       0     0     0
            wwn-0x50000c900040a828  ONLINE       0     0     0
        special
          mirror-2                  ONLINE       0     0     0
            wwn-0x5001b444a7ae7a55  ONLINE       0     0     0
            wwn-0x5001b444a7ae7a57  ONLINE       0     0     0

经过更多磁盘更换、重新同步和重置后:

        NAME                                     STATE     READ WRITE CKSUM
        zpool                                    DEGRADED     0     0     0
          raidz2-0                               DEGRADED     0     0     0
            wwn-0x50000c900040b558               ONLINE       0     0     0
            wwn-0x50000c900040a134               ONLINE       0     0     0
            wwn-0x50000c900040f8b0               ONLINE       0     0     0
            wwn-0x50000c90003fd4c4               ONLINE       0     0     0
            wwn-0x50000c90003fe7fc               ONLINE       0     0     0
            wwn-0x50000c9000409f8c               ONLINE       0     0     0
            scsi-3500605ba010cb160               ONLINE       0     0     0
            wwn-0x50000c900015436c               ONLINE       0     0     0
            usb-LITEON_UITRA1_00000000006BF-0:0  DEGRADED     0     0 18.0K  too many errors  (resilvering)
            replacing-9                          DEGRADED    52  318K 2.01K
              old                                OFFLINE      0     0     0  block size: 512B configured, 4096B native
              wwn-0x50000c900040a0a0             ONLINE      17 1.58M     0  block size: 512B configured, 4096B native  (resilvering)
            wwn-0x50000c90004104fc               ONLINE       0     0     0
            wwn-0x50000c90003fc900               ONLINE       0     0     0
          raidz2-1                               ONLINE       0     0     0
            wwn-0x500605ba00776c40               ONLINE       0     0     0
            wwn-0x500605ba00a89b18               ONLINE       0     0     0
            wwn-0x50000c90003fc944               ONLINE       0     0     0
            wwn-0x50000c90003fbdf0               ONLINE       0     0     0
            wwn-0x50000c90003fbdf4               ONLINE       0     0     0
            wwn-0x50000c9000409f24               ONLINE       0     0     0
            wwn-0x500605ba0108354c               ONLINE       0     0     0
            wwn-0x500605ba00bfceec               ONLINE       0     0     0
            wwn-0x50000c900040ac94               ONLINE       0     0     0
            wwn-0x50000c900040f968               ONLINE       0     0     0
            wwn-0x50000c90003fbe10               ONLINE       0     0     0
            wwn-0x50000c900040a828               ONLINE       0     0     0
        special
          mirror-2                               ONLINE       0     0     0
            wwn-0x5001b444a7ae7a55               ONLINE       0     0     0
            wwn-0x5001b444a7ae7a57               ONLINE       0     0     0

errors: No known data errors

它是 24 轴 Netapp DS4243,错误主要与三个有问题的驱动器托架之一有关。

问题湾 问题 测试
USB-LITEON_UITRA1_00000000006BF-0:0 没有磁盘在此托架中保持在线状态超过几分钟,因此将其替换为 USB 外壳 使用四张磁盘进行测试和重新同步,其中包括一张全新磁盘。问题仍然存在,因此它被替换为 USB 外壳,该外壳可以工作,但报告错误计数很高,可能是由于 USB 外壳中的磁盘所致,但很奇怪,因为该磁盘是用 HD Sentinel 进行测试的。
wwn-0x50000c900040a0a0 通常很好,但已经离线了几次,在重新同步操作结束时出现不稳定的读写错误 使用三张磁盘进行测试和重新同步,其中包括一张全新磁盘。问题仍然存在
wwn-0x50000c900040b558 仅离线一次,出现不稳定的读写错误,但少于 wwn-0x50000c900040a0a0 使用两个不同的磁盘进行测试和重新同步。问题仍然存在

问题托架在物理上并不相邻并且随机放置https://i.stack.imgur.com/GkrGG.jpg)。这些托架在 Netapp 设备内部进行连接。我只需将驱动器插入热插拔托架,并使用 SAS HD 电缆直接连接到 SAS HBA 适配器。唯一的其他物理操作是我相信 Netapp 过去安装了 IOM6 控制器。

wwn-0x50000c900040a0a0 和 wwn-0x50000c900040b558 的 smartctl 统计数据均显示没有磁盘错误,但是 wwn-0x50000c900040a0a0 上的“非中等错误计数”值为 28,我收集的数据暗示着接口错误的可能性,如果我知道的话该死的为什么。

不幸的是,这是一个我不能失去的池,我不想永远重新同步(我目前仅使用全新磁盘重新同步,但仍然出现错误)。

更新 - 找到修复??? 出乎意料的是,用 LSI 同等产品替换旧的 Emulex SATA->SAS 内插器板已经解决了受影响托架上的问题。

我还有一根新的 HD SAS 电缆,线规较粗,因为它们可能都是相关的,但到目前为止一切都很好。

相关内容