我有一个曾经工作但现在降级的 zfs 池,配置如下,几周来我一直在尝试通过更换和重新更换磁盘来修复该池,结果在相同的托架上再次出现相同的问题。
几周前
NAME STATE READ WRITE CKSUM
zpool DEGRADED 0 0 0
raidz2-0 DEGRADED 0 0 0
wwn-0x50000c900040b558 ONLINE 3 159 0
wwn-0x50000c900040a134 ONLINE 0 0 0
wwn-0x50000c900040f8b0 ONLINE 0 0 0
wwn-0x50000c90003fd4c4 ONLINE 0 0 0
wwn-0x50000c90003fe7fc ONLINE 0 0 0
wwn-0x50000c9000409f8c ONLINE 0 0 0
scsi-3500605ba010cb160 ONLINE 0 0 0
wwn-0x50000c900015436c ONLINE 0 0 0
replacing-8 UNAVAIL 3 35.9K 0 insufficient replicas
2597997485925153301 FAULTED 0 0 0 was /dev/sdl1
sdaa FAULTED 20 27.0K 0 corrupted data
sdaa FAULTED 3 9.27K 0 too many errors
wwn-0x50000c900040a0a0 ONLINE 5.74K 78.3K 0
wwn-0x50000c90004104fc ONLINE 0 0 0
wwn-0x50000c90003fc900 ONLINE 0 0 0
raidz2-1 ONLINE 0 0 0
wwn-0x500605ba00776c40 ONLINE 3 2 2
wwn-0x500605ba00a89b18 ONLINE 0 0 0
wwn-0x50000c90003fc944 ONLINE 0 0 0
wwn-0x50000c90003fbdf0 ONLINE 0 0 0
wwn-0x50000c90003fbdf4 ONLINE 0 0 0
wwn-0x50000c9000409f24 ONLINE 0 0 0
wwn-0x500605ba0108354c ONLINE 0 0 0
wwn-0x500605ba00bfceec ONLINE 0 0 0
wwn-0x50000c900040ac94 ONLINE 0 0 0
wwn-0x50000c900040f968 ONLINE 0 0 0
wwn-0x50000c90003fbe10 ONLINE 0 0 0
wwn-0x50000c900040a828 ONLINE 0 0 0
special
mirror-2 ONLINE 0 0 0
wwn-0x5001b444a7ae7a55 ONLINE 0 0 0
wwn-0x5001b444a7ae7a57 ONLINE 0 0 0
经过更多磁盘更换、重新同步和重置后:
NAME STATE READ WRITE CKSUM
zpool DEGRADED 0 0 0
raidz2-0 DEGRADED 0 0 0
wwn-0x50000c900040b558 ONLINE 0 0 0
wwn-0x50000c900040a134 ONLINE 0 0 0
wwn-0x50000c900040f8b0 ONLINE 0 0 0
wwn-0x50000c90003fd4c4 ONLINE 0 0 0
wwn-0x50000c90003fe7fc ONLINE 0 0 0
wwn-0x50000c9000409f8c ONLINE 0 0 0
scsi-3500605ba010cb160 ONLINE 0 0 0
wwn-0x50000c900015436c ONLINE 0 0 0
usb-LITEON_UITRA1_00000000006BF-0:0 DEGRADED 0 0 18.0K too many errors (resilvering)
replacing-9 DEGRADED 52 318K 2.01K
old OFFLINE 0 0 0 block size: 512B configured, 4096B native
wwn-0x50000c900040a0a0 ONLINE 17 1.58M 0 block size: 512B configured, 4096B native (resilvering)
wwn-0x50000c90004104fc ONLINE 0 0 0
wwn-0x50000c90003fc900 ONLINE 0 0 0
raidz2-1 ONLINE 0 0 0
wwn-0x500605ba00776c40 ONLINE 0 0 0
wwn-0x500605ba00a89b18 ONLINE 0 0 0
wwn-0x50000c90003fc944 ONLINE 0 0 0
wwn-0x50000c90003fbdf0 ONLINE 0 0 0
wwn-0x50000c90003fbdf4 ONLINE 0 0 0
wwn-0x50000c9000409f24 ONLINE 0 0 0
wwn-0x500605ba0108354c ONLINE 0 0 0
wwn-0x500605ba00bfceec ONLINE 0 0 0
wwn-0x50000c900040ac94 ONLINE 0 0 0
wwn-0x50000c900040f968 ONLINE 0 0 0
wwn-0x50000c90003fbe10 ONLINE 0 0 0
wwn-0x50000c900040a828 ONLINE 0 0 0
special
mirror-2 ONLINE 0 0 0
wwn-0x5001b444a7ae7a55 ONLINE 0 0 0
wwn-0x5001b444a7ae7a57 ONLINE 0 0 0
errors: No known data errors
它是 24 轴 Netapp DS4243,错误主要与三个有问题的驱动器托架之一有关。
问题湾 | 问题 | 测试 |
---|---|---|
USB-LITEON_UITRA1_00000000006BF-0:0 | 没有磁盘在此托架中保持在线状态超过几分钟,因此将其替换为 USB 外壳 | 使用四张磁盘进行测试和重新同步,其中包括一张全新磁盘。问题仍然存在,因此它被替换为 USB 外壳,该外壳可以工作,但报告错误计数很高,可能是由于 USB 外壳中的磁盘所致,但很奇怪,因为该磁盘是用 HD Sentinel 进行测试的。 |
wwn-0x50000c900040a0a0 | 通常很好,但已经离线了几次,在重新同步操作结束时出现不稳定的读写错误 | 使用三张磁盘进行测试和重新同步,其中包括一张全新磁盘。问题仍然存在 |
wwn-0x50000c900040b558 | 仅离线一次,出现不稳定的读写错误,但少于 wwn-0x50000c900040a0a0 | 使用两个不同的磁盘进行测试和重新同步。问题仍然存在 |
(https://i.stack.imgur.com/GkrGG.jpg)。这些托架在 Netapp 设备内部进行连接。我只需将驱动器插入热插拔托架,并使用 SAS HD 电缆直接连接到 SAS HBA 适配器。唯一的其他物理操作是我相信 Netapp 过去安装了 IOM6 控制器。
wwn-0x50000c900040a0a0 和 wwn-0x50000c900040b558 的 smartctl 统计数据均显示没有磁盘错误,但是 wwn-0x50000c900040a0a0 上的“非中等错误计数”值为 28,我收集的数据暗示着接口错误的可能性,如果我知道的话该死的为什么。
不幸的是,这是一个我不能失去的池,我不想永远重新同步(我目前仅使用全新磁盘重新同步,但仍然出现错误)。
更新 - 找到修复??? 出乎意料的是,用 LSI 同等产品替换旧的 Emulex SATA->SAS 内插器板已经解决了受影响托架上的问题。
我还有一根新的 HD SAS 电缆,线规较粗,因为它们可能都是相关的,但到目前为止一切都很好。