我有一个非常现代的 RAID 硬件:
- 控制器:Intel RS3SC008
- SAS 扩展器:英特尔 RES3FV288
- 硬盘:Seagate ST8000AS0002-1NA17Z
目前我没有BBU,应该是Intel AXXRMFBU4。
SAS 扩展器已正确与控制器连接到 G 端口(根据手册)。
所有系统部件均具有适当的温度和通风(例如,控制器 ROC 处的温度约为 43C,这已超过最佳温度)。
控制器和扩展器已刷新至最新固件。
HDD 也是最新的固件。
我的问题是,无论我配置了什么 RAID 级别(尝试了 0、6)以及无论我选择什么缓存配置,在实际负载下都会遇到错误:
- 在某些配置中,VD 设备离线,表明某些 HDD 离线。
- 假设这些硬盘可能有故障,我又创建了另一个没有这些硬盘的测试,但仍然失败。
- 在日志中我看到一些警告,抱怨我没有温度传感器,还有一些物理设备重置警告。直到 VD 离线之前都没有真正的错误,因为其中一个硬盘驱动器行为不当并离线。我试图在后续测试中排除这些有故障的硬盘驱动器。这似乎稍微恢复了问题,但最终,我还是处于起步阶段。
我怀疑在这 20 个新硬盘中,有 4 个有故障的硬盘有点奇怪。
在这种情况下你会建议什么?
可能是什么问题呢?
硬盘不兼容?
有没有什么办法可以摆脱这种情况?
答案1
在每个驱动器上使用 HD-tune 查看是否存在 SMART 问题(重新分配或坏扇区是优先事项)。
采用更加实用的类似测试的方法:
以 4 个驱动器为一组进行测试。就像在 RAID 0 中制作 4 个磁盘组一样。
然后将一组副本复制到其他组。
这样你就可以相对快速地识别出哪些有问题。
注意:对如此多的 Seagate 进行 RAID 0 操作无异于自杀。
如果需要,可以将您认为良好的 4 磁盘阵列放回到单个磁盘阵列中(或者等到测试结束,以便您能够实际使用所有良好的驱动器)。
对于运行不正常的驱动器,请交换一些驱动器或将其拆分为 2 个磁盘阵列,以便进一步过滤掉它们。尝试通过将好的 2 组电缆交换到坏的 2 组电缆来确定是否有坏电缆导致故障。
另请注意,错误确实会识别出有故障的端口,因此您可以首先消除错误所发出的信号。
“命令超时”错误可能意味着无法访问硬盘。
答案2
最终的结论,不幸的是没有解决方案。
经过几组测试后,我可以确认前面提到的驱动器:
- 硬盘:Seagate ST8000AS0002-1NA17Z
- SSD:Crucial CT1000BX500SSD1
是与 RAID 完全不兼容配置和性能非常低。
顺便说一句,我完全不明白为什么它们在经过几秒钟的繁重操作后,性能会下降到同样的程度。我想这是因为使用了类似的基本、缓慢、低级组件。
我在这个问题上浪费了很多时间,所以也许这篇文章会对任何人有所帮助。