zfs 池状态不稳定

zfs 池状态不稳定

多年来,我一直在 ubuntu 上运行 zfs 池,没有任何问题。目前在 20.04

从今年年初开始,我不得不更换 4 个磁盘中的 2 个,甚至全新的磁盘也开始出现错误。

开始每周清理一次,情况就比较稳定了。一些磁盘上会出现 20-50 个读取错误和/或写入错误,清理可以修复它们。

然而几天前,一个磁盘因太多错误而出现故障。然后第二个磁盘也出现了故障。运行清理使情况变得更糟。

今天触发了清理,然后意识到磁盘可能太热,关闭电脑来调整风扇,重新启动,zpool 状态显示:

 state: DEGRADED
status: One or more devices is currently being resilvered.  The pool will
    continue to function, possibly in a degraded state.
action: Wait for the resilver to complete.
  scan: resilver in progress since Sat Jun 19 18:44:07 2021
    1.51T scanned at 2.74G/s, 1.29T issued at 2.35G/s, 3.04T total
    2.76G resilvered, 42.42% done, 0 days 00:12:44 to go
config:

    NAME                                           STATE     READ WRITE CKSUM
    ztank                                          DEGRADED     0     0     0
      mirror-0                                     DEGRADED     0     0     0
        ata-ST2000LM003_HN-M201RAD_S34RJ9AFB25570  DEGRADED     0     0     0  too many errors
        ata-ST2000LM003_HN-M201RAD_S362J9EGB75740  ONLINE       0     0     0  (resilvering)
      mirror-1                                     ONLINE       0     0     0
        ata-ST2000DM008-2FR102_ZFL3P2SZ            ONLINE       0     0     0
        ata-TOSHIBA_HDWL120_807APRBUT              ONLINE       0     0     0  (resilvering)
    logs
      zfs_slog                                     ONLINE       0     0     0
    cache
      zfs_l2arc                                    ONLINE       0     0     0

errors: No known data errors

我真的很震惊发生了什么

答案1

好吧,看起来您自己已经回答了 - 磁盘太热,所以开始出现故障。看看您是否可以从该降级状态中恢复。

另外,检查您的 RAM。进行完整的内存测试。如果它们没问题,也检查 SATA 电缆。检查所有 SMART 统计数据并通过 smartctl 对所有统计数据进行 test=long。切勿让您的硬盘过热。

答案2

事实证明问题出在我为驱动器供电的方式上。我无意中在单个电源轨上放置了太多驱动器。一旦我将它们均匀分布在电源轨上,一切就恢复正常了。

相关内容