我需要测试我的戴尔 SAS 控制器卡。自去年 7 月以来,我在 Raidz2 安装中发现太多错误,这可能是真的。就好像一个又一个驱动器不断脱轨。
我有一台所谓的“戴尔”9207-8l。我是在 2020 年 7 月/8 月从 ebay 上买的。 https://www.ebay.com/itm/132663136462
我一直无法进入它的配置。它说按 Ctrl + C 进入配置。我试过左、右 crtl,加上 c,也用 C(大写),因为它的拼写是大写的。它说它会在设置后进入配置,但从来没有,如果del
按下它,就会直接进入 bios,否则就会启动。
我在 rhelx64 上运行 zfs-on-linux。昨天真是惨不忍睹。我不得不拔出一些 2TB 设备(6 个),并制作了迄今为止的 3 个 3TB LVM,以支持故障系统,同时经历某种 RMA 地狱。
# zpool status
pool: nas
state: DEGRADED status: One or more devices is currently being resilvered. The pool will
continue to function, possibly in a degraded state.
action: Wait for the resilver to complete.
scan: resilver in progress since Wed Dec 1 05:41:15 2021
665G scanned at 24.5M/s, 640G issued at 23.6M/s, 9.78T total
182G resilvered, 6.40% done, 4 days 16:52:09 to go
config:
NAME STATE READ WRITE CKSUM
nas DEGRADED 0 0 0
raidz2-0 DEGRADED 0 0 0
scsi-35000c50093a9052f DEGRADED 0 0 52 too many errors
replacing-1 DEGRADED 0 0 52
scsi-35000c50084818db7 OFFLINE 0 0 0
lvzfs2-lvzfsvol2 ONLINE 0 0 0 (resilvering)
scsi-35000c50093a9182b DEGRADED 235 636 52 too many errors
scsi-350000c0f01e5dabc DEGRADED 0 0 60 too many errors
scsi-35000c5008491a803 DEGRADED 0 0 53 too many errors (resilvering)
replacing-5 DEGRADED 0 0 52
scsi-35000c50084889cf3 OFFLINE 0 0 0
lvzfs1-lzfsvol1 ONLINE 0 0 0 (resilvering)
scsi-35000c50093a8dfe7 DEGRADED 0 0 52 too many errors
spares
lvzfs3-lvzfsvol3 AVAIL
errors: Permanent errors have been detected in the following files:
<metadata>:<0x0>
root@merlin ~$
不管怎样,这种重新同步已经持续了一两个月了。实际上,在短时间内,一切看起来都很好,但下一个驱动器发生故障,或者之前已知的故障驱动器(dd dev/zero'd)再次发生故障。
这简直让我抓狂,同时也让我害怕,因为这些数据非常重要。这是 1970 年代及之前的家庭照片,等等……
请帮助?
编辑:我在这里添加了一条关于我实际使用驱动器的评论https://www.reddit.com/r/audiophile/comments/bxw38m/bass_vibrations_and_computer_hard_drives/hnvbyj0/因为我还担心 HardHouse 和 Tidy Tracks 会用几个低音炮把驱动器摇得摇晃不定。将考虑将服务器从办公室搬到车库。我还设法使用 sata 端口和旧的 2Tb 驱动器创建了一个新的 zfs 池,目前还没有问题。尽管我已经进行了调整,甚至将一些数据集移到了另一个池,但仍然处于重新镀银的地狱之中。
root@merlin ~$ zpool status
pool: bak
state: ONLINE
scan: none requested
config:
NAME STATE READ WRITE CKSUM
bak ONLINE 0 0 0
ata-WDC_WD20EZRX-19D8PB0_WD-WCC4M0428332 ONLINE 0 0 0
ata-WDC_WD2000FYYZ-01UL1B1_WD-WCC1P0891973 ONLINE 0 0 0
errors: No known data errors
pool: nas
state: DEGRADED
status: One or more devices is currently being resilvered. The pool will
continue to function, possibly in a degraded state.
action: Wait for the resilver to complete.
scan: resilver in progress since Mon Dec 6 11:08:12 2021
7.84T scanned at 37.5M/s, 7.84T issued at 37.5M/s, 9.78T total
3.39T resilvered, 80.16% done, 0 days 15:03:25 to go
config:
config:
NAME STATE READ WRITE CKSUM
nas DEGRADED 0 0 0
raidz2-0 DEGRADED 0 0 0
scsi-35000c50093a9052f DEGRADED 0 0 0 too many errors
replacing-1 ONLINE 0 0 0
scsi-35000c50084818db7 ONLINE 0 0 0 (resilvering)
lvzfs2-lvzfsvol2 ONLINE 0 0 0 (resilvering)
replacing-2 DEGRADED 0 0 0
17084797086424522076 UNAVAIL 0 0 0 was /dev/disk/by-id/scsi-35000c50093a9182b-part1
scsi-350000c0f012efb7c ONLINE 0 0 0 (resilvering)
scsi-350000c0f01e5dabc DEGRADED 0 0 0 too many errors (resilvering)
scsi-35000c5008491a803 DEGRADED 0 0 0 too many errors
replacing-5 DEGRADED 0 0 0
scsi-35000c50084889cf3 DEGRADED 0 0 0 too many errors (resilvering)
lvzfs1-lzfsvol1 DEGRADED 0 0 0 too many errors (resilvering)
scsi-35000c50093a8dfe7 DEGRADED 0 0 0 too many errors
errors: 2 data errors, use '-v' for a list
仅供参考,存在校验和错误,但重启后错误会被清除。
错误非常少,我对 ZFS 的稳健性印象深刻,这就是我继续使用它进行主要备份的原因。比备份到单个磁盘更好。
我犯的另一个错误是,我有 5 个新驱动器放在这里已经将近一个星期了,但我不能使用它们,直到 LVM 卷完成重新同步,因为我离数据错误太近了,所以我想先完成它,因为我没有等待驱动器通过邮件到达,就胡乱地运行了替换操作,没有意识到完成所有这些重新同步操作需要数周时间。疯狂的疯狂!
我曾计算过冰川存储 (0.004/GB),5TB 每月需要花费 20 美元,这不是一个选择。如果我需要这些数据,那就忘了出口成本吧。此外,我非常喜欢这一点,在家庭服务器上使用 ZFS。之前的阵列驱动器在拆卸时已经使用了 8 年,而且我只在整个阵列上使用已知的坏驱动器,但仍然设法成功了。我想一套新的翻新或更新的驱动器可以解决这个问题。抱歉,我想我是在发泄,但我想更多地了解我可能做错了什么……
顺便说一句,我确实让公司(在这种情况下是 deepdiscountserver)支付了驱动器更换费用,不同型号。我不再需要 IBM 翻新机了。打算测试一下 HGST,因为它们过去对我来说效果很好。
请放心,如果出现问题,一旦这种重新同步的疯狂结束,一张新的 SAS 卡就会送来。如果不能,我将不得不再做一次完整备份,这几乎和重新同步一样耗时……至少我已经将实时数据从阵列中移出,所以不会发生任何损失,除非我丢失了主驱动器,而这期间我在另一个系统上……我想我可以说,数据非常重要,但我仍然有它的副本,但我现在可以承受损失。澄清“重要”部分,如果 ZFS 阵列确实开始出现错误,这将是紧急的,因为我只有一个驱动器,其中包含主副本。
答案1
我需要测试我的戴尔 SAS 控制器卡。
很简单,换一张就知道卡有没有问题了。
没有可用的?我们能回到网站规则中的“专业性”和“最佳实践”吗?请一家公司来做(并付费)。更换测试几乎是唯一(并且绝对是最有效的)确保不是部件故障的方法。
因为这些数据非常重要。包括 1970 年代及之前的家庭照片等等……
除此之外这与主题无关......
...这对你来说根本不重要。我坚持“言出必行”。如果这对你来说很重要,那就应该备份。我的意思是,我在学校学到——30 多年前——备份是一件值得考虑的事情,也是必须的。所以,当你最后拒绝做人们处理重要数据的事情时,不要说“重要”。开始实施备份——周围有很多相当低成本的服务。