我们是一家分析大量生物数据的小型企业,现在写入和读取 500Gb 到 1.5Tb 范围内的数据,以产生小得多的最终结果。我个人是一名数据科学家,但大多数人要么是生物学家,要么是商人,要么两者兼而有之。更糟糕的是,我是远程工作的,所以尝试很多事情都很棘手。
现在介绍一下这个过程。我们将原始数据存储在亚马逊上,所以我们不处理这部分,但是我们在企业级塔式机上内部进行计算(Meshify C、ASUS Pro WS WRX80E-SAGE SE 主板、Threadreaper PRO 5975WX、RTX5000、4Tb nVME 用于运行时和 ZFS zraid5 默认配置(3x16Tb Seagate Ironwolf Pro)。最初我们认为这是一个合理的设置,但我们一直遇到硬盘问题。它们平均只能存活 2-3 个月,之后就会出现故障。到目前为止,我们已经用 varanty 替换了 2 个,但对整个情况感到很难过。我们不能 100% 确定第二天我们不会花时间更换磁盘,否则公司会拒绝提供 varanty。我们的设置是这样的,我们通过 2.5Mbps 以太网使用 rsync 获取数据,将其复制到 nVME 在那里进行处理,一旦文件处理完毕,就会将其复制回 HDD。复制由一个名为 Nextflow 的工作流系统理论上应该创建一个用于复制文件的队列,但我不会感到惊讶,情况并非总是如此,有时我们会同时从 HDD 复制多达 20 个 500Mb 的文件。
让我感到警觉的是,当系统空闲时,硬盘的工作温度约为 38-40 度(Mobo SYSTIN 的温度也大致相同,即使没有侧面板),当系统正在处理时,硬盘的工作温度约为 45 度。奇怪的是,移除侧面板也无济于事。系统中有很多风扇,我们可能可以找到解决方案来进一步冷却系统,但也许有人有类似系统的经验。还有什么原因会导致如此高的故障率。我注意到的另一件事是,一个磁盘的保存情况相当好(单个 Seagate EXOS 16Tb,可能是误买的)。它运行时间最长,几乎 9 个月,错误率比运行 1 个月的磁盘少 5 倍。但现在我将两条电缆(电源线和 SATA)从故障磁盘换到这个磁盘,错误数量急剧上升。SATA 控制器或电源(尽管它之前在同一个电源线上,就在之前的插孔上)可能导致这种情况的可能性有多大。
欢迎任何有关如何正确构建此类设置的想法或建议!
答案1
但现在我将两条电缆(电源线和 SATA)从故障磁盘换到这个磁盘,错误数量急剧增加。SATA 控制器或电源(尽管之前它们位于同一根电源线上,就在之前的插孔上)导致这种情况的可能性有多大?
是的,电缆故障肯定会造成问题。更换任何可疑存储上的数据和电源线。如果问题仍然存在,请更换从磁盘到主板的所有部件。可能是主板本身,尽管最终这变成了构建一个全新的机箱。
在监测环境条件的同时,还要注意电源质量。在电源输入端使用不间断电源。如果有任何疑问,请更换电源。
ZFS 的“zraid5”混淆了两种不同的阵列命名方案。RAID 5 是标准的分布式奇偶校验,可承受一次故障。ZFS 最相似的是 raidz1。
请注意,此阵列可能无法在重建后幸存下来。Server Fault 上的许多人认为 TB 级磁盘对于一个冗余奇偶校验来说太大了,即使在 ZFS 上也是如此。重建此阵列时,请考虑更多类似 raidz2 的冗余设计,或者具有不同考虑因素的镜像。
怀疑是否可以在保修期内更换零件可能意味着您没有正确的服务合同。或者您的供应商不了解频繁使用的存储阵列。磁盘基本上是消耗品,使用寿命可能为 3 年左右。
答案2
它确实需要一些投资,但我绝对建议研究 Pure Storage 全闪存阵列。
我曾在一家小型 SaaS 金融公司工作,那里的应用程序核心非常老旧,而且由于他们从事金融业务,所以需要非常快的存储,从我所看到的情况来看,Pure 能够满足这一要求,甚至更多。