如何测试我的 SAS 控制卡?

如何测试我的 SAS 控制卡?

我需要测试我的戴尔 SAS 控制器卡。自去年 7 月以来,我在 Raidz2 安装中发现太多错误,这可能是真的。就好像一个又一个驱动器不断脱轨。

我有一台所谓的“戴尔”9207-8l。我是在 2020 年 7 月/8 月从 ebay 上买的。 https://www.ebay.com/itm/132663136462 我一直无法进入它的配置。它说按 Ctrl + C 进入配置。我试过左、右 crtl,加上 c,也用 C(大写),因为它的拼写是大写的。它说它会在设置后进入配置,但从来没有,如果del按下它,就会直接进入 bios,否则就会启动。

我在 rhelx64 上运行 zfs-on-linux。昨天真是惨不忍睹。我不得不拔出一些 2TB 设备(6 个),并制作了迄今为止的 3 个 3TB LVM,以支持故障系统,同时经历某种 RMA 地狱。

# zpool status                                                                               
pool: nas
state: DEGRADED                                                                                          status: One or more devices is currently being resilvered.  The pool will
        continue to function, possibly in a degraded state.
action: Wait for the resilver to complete.
  scan: resilver in progress since Wed Dec  1 05:41:15 2021
        665G scanned at 24.5M/s, 640G issued at 23.6M/s, 9.78T total
        182G resilvered, 6.40% done, 4 days 16:52:09 to go
config:

        NAME                          STATE     READ WRITE CKSUM
        nas                           DEGRADED     0     0     0
          raidz2-0                    DEGRADED     0     0     0
            scsi-35000c50093a9052f    DEGRADED     0     0    52  too many errors
            replacing-1               DEGRADED     0     0    52
              scsi-35000c50084818db7  OFFLINE      0     0     0
              lvzfs2-lvzfsvol2        ONLINE       0     0     0  (resilvering)
            scsi-35000c50093a9182b    DEGRADED   235   636    52  too many errors
            scsi-350000c0f01e5dabc    DEGRADED     0     0    60  too many errors
            scsi-35000c5008491a803    DEGRADED     0     0    53  too many errors  (resilvering)
            replacing-5               DEGRADED     0     0    52
              scsi-35000c50084889cf3  OFFLINE      0     0     0
              lvzfs1-lzfsvol1         ONLINE       0     0     0  (resilvering)
            scsi-35000c50093a8dfe7    DEGRADED     0     0    52  too many errors
        spares
          lvzfs3-lvzfsvol3            AVAIL

errors: Permanent errors have been detected in the following files:

        <metadata>:<0x0>
root@merlin ~$

不管怎样,这种重新同步已经持续了一两个月了。实际上,在短时间内,一切看起来都很好,但下一个驱动器发生故障,或者之前已知的故障驱动器(dd dev/zero'd)再次发生故障。

这简直让我抓狂,同时也让我害怕,因为这些数据非常重要。这是 1970 年代及之前的家庭照片,等等……

请帮助?

编辑:我在这里添加了一条关于我实际使用驱动器的评论https://www.reddit.com/r/audiophile/comments/bxw38m/bass_vibrations_and_computer_hard_drives/hnvbyj0/因为我还担心 HardHouse 和 Tidy Tracks 会用几个低音炮把驱动器摇得摇晃不定。将考虑将服务器从办公室搬到车库。我还设法使用 sata 端口和旧的 2Tb 驱动器创建了一个新的 zfs 池,目前还没有问题。尽管我已经进行了调整,甚至将一些数据集移到了另一个池,但仍然处于重新镀银的地狱之中。

root@merlin ~$ zpool status
  pool: bak
 state: ONLINE
  scan: none requested
config:

        NAME                                          STATE     READ WRITE CKSUM
        bak                                           ONLINE       0     0     0
          ata-WDC_WD20EZRX-19D8PB0_WD-WCC4M0428332    ONLINE       0     0     0
          ata-WDC_WD2000FYYZ-01UL1B1_WD-WCC1P0891973  ONLINE       0     0     0

errors: No known data errors

  pool: nas
 state: DEGRADED
status: One or more devices is currently being resilvered.  The pool will
        continue to function, possibly in a degraded state.
action: Wait for the resilver to complete.
  scan: resilver in progress since Mon Dec  6 11:08:12 2021
        7.84T scanned at 37.5M/s, 7.84T issued at 37.5M/s, 9.78T total
        3.39T resilvered, 80.16% done, 0 days 15:03:25 to go
config:

config:

        NAME                          STATE     READ WRITE CKSUM
        nas                           DEGRADED     0     0     0
          raidz2-0                    DEGRADED     0     0     0
            scsi-35000c50093a9052f    DEGRADED     0     0     0  too many errors
            replacing-1               ONLINE       0     0     0
              scsi-35000c50084818db7  ONLINE       0     0     0  (resilvering)
              lvzfs2-lvzfsvol2        ONLINE       0     0     0  (resilvering)
            replacing-2               DEGRADED     0     0     0
              17084797086424522076    UNAVAIL      0     0     0  was /dev/disk/by-id/scsi-35000c50093a9182b-part1
              scsi-350000c0f012efb7c  ONLINE       0     0     0  (resilvering)
            scsi-350000c0f01e5dabc    DEGRADED     0     0     0  too many errors  (resilvering)
            scsi-35000c5008491a803    DEGRADED     0     0     0  too many errors
            replacing-5               DEGRADED     0     0     0
              scsi-35000c50084889cf3  DEGRADED     0     0     0  too many errors  (resilvering)
              lvzfs1-lzfsvol1         DEGRADED     0     0     0  too many errors  (resilvering)
            scsi-35000c50093a8dfe7    DEGRADED     0     0     0  too many errors

errors: 2 data errors, use '-v' for a list

仅供参考,存在校验和错误,但重启后错误会被清除。

错误非常少,我对 ZFS 的稳健性印象深刻,这就是我继续使用它进行主要备份的原因。比备份到单个磁盘更好。

我犯的另一个错误是,我有 5 个新驱动器放在这里已经将近一个星期了,但我不能使用它们,直到 LVM 卷完成重新同步,因为我离数据错误太近了,所以我想先完成它,因为我没有等待驱动器通过邮件到达,就胡乱地运行了替换操作,没有意识到完成所有这些重新同步操作需要数周时间。疯狂的疯狂!

我曾计算过冰川存储 (0.004/GB),5TB 每月需要花费 20 美元,这不是一个选择。如果我需要这些数据,那就忘了出口成本吧。此外,我非常喜欢这一点,在家庭服务器上使用 ZFS。之前的阵列驱动器在拆卸时已经使用了 8 年,而且我只在整个阵列上使用已知的坏驱动器,但仍然设法成功了。我想一套新的翻新或更新的驱动器可以解决这个问题。抱歉,我想我是在发泄,但我想更多地了解我可能做错了什么……

顺便说一句,我确实让公司(在这种情况下是 deepdiscountserver)支付了驱动器更换费用,不同型号。我不再需要 IBM 翻新机了。打算测试一下 HGST,因为它们过去对我来说效果很好。

请放心,如果出现问题,一旦这种重新同步的疯狂结束,一张新的 SAS 卡就会送来。如果不能,我将不得不再做一次完整备份,这几乎和重新同步一样耗时……至少我已经将实时数据从阵列中移出,所以不会发生任何损失,除非我丢失了主驱动器,而这期间我在另一个系统上……我想我可以说,数据非常重要,但我仍然有它的副本,但我现在可以承受损失。澄清“重要”部分,如果 ZFS 阵列确实开始出现错误,这将是紧急的,因为我只有一个驱动器,其中包含主副本。

答案1

我需要测试我的戴尔 SAS 控制器卡。

很简单,换一张就知道卡有没有问题了。

没有可用的?我们能回到网站规则中的“专业性”和“最佳实践”吗?请一家公司来做(并付费)。更换测试几乎是唯一(并且绝对是最有效的)确保不是部件故障的方法。

因为这些数据非常重要。包括 1970 年代及之前的家庭照片等等……

除此之外这与主题无关......

...这对你来说根本不重要。我坚持“言出必行”。如果这对你来说很重要,那就应该备份。我的意思是,我在学校学到——30 多年前——备份是一件值得考虑的事情,也是必须的。所以,当你最后拒绝做人们处理重要数据的事情时,不要说“重要”。开始实施备份——周围有很多相当低成本的服务。

相关内容