多年来,我一直在 ubuntu 上运行 zfs 池,没有任何问题。目前在 20.04
从今年年初开始,我不得不更换 4 个磁盘中的 2 个,甚至全新的磁盘也开始出现错误。
开始每周清理一次,情况就比较稳定了。一些磁盘上会出现 20-50 个读取错误和/或写入错误,清理可以修复它们。
然而几天前,一个磁盘因太多错误而出现故障。然后第二个磁盘也出现了故障。运行清理使情况变得更糟。
今天触发了清理,然后意识到磁盘可能太热,关闭电脑来调整风扇,重新启动,zpool 状态显示:
state: DEGRADED
status: One or more devices is currently being resilvered. The pool will
continue to function, possibly in a degraded state.
action: Wait for the resilver to complete.
scan: resilver in progress since Sat Jun 19 18:44:07 2021
1.51T scanned at 2.74G/s, 1.29T issued at 2.35G/s, 3.04T total
2.76G resilvered, 42.42% done, 0 days 00:12:44 to go
config:
NAME STATE READ WRITE CKSUM
ztank DEGRADED 0 0 0
mirror-0 DEGRADED 0 0 0
ata-ST2000LM003_HN-M201RAD_S34RJ9AFB25570 DEGRADED 0 0 0 too many errors
ata-ST2000LM003_HN-M201RAD_S362J9EGB75740 ONLINE 0 0 0 (resilvering)
mirror-1 ONLINE 0 0 0
ata-ST2000DM008-2FR102_ZFL3P2SZ ONLINE 0 0 0
ata-TOSHIBA_HDWL120_807APRBUT ONLINE 0 0 0 (resilvering)
logs
zfs_slog ONLINE 0 0 0
cache
zfs_l2arc ONLINE 0 0 0
errors: No known data errors
我真的很震惊发生了什么
答案1
好吧,看起来您自己已经回答了 - 磁盘太热,所以开始出现故障。看看您是否可以从该降级状态中恢复。
另外,检查您的 RAM。进行完整的内存测试。如果它们没问题,也检查 SATA 电缆。检查所有 SMART 统计数据并通过 smartctl 对所有统计数据进行 test=long。切勿让您的硬盘过热。
答案2
事实证明问题出在我为驱动器供电的方式上。我无意中在单个电源轨上放置了太多驱动器。一旦我将它们均匀分布在电源轨上,一切就恢复正常了。