全新 RAID 阵列上出现错误数据

全新 RAID 阵列上出现错误数据

我们在 IBM 服务器上遇到了数据不一致的问题,该服务器包含 6 个 1TB SAS 驱动器,由 IBM RAID 控制器以 RAID 6 运行。我会将其归咎于故障驱动器,但 RAID 控制器没有报告任何问题。文件系统(所有 ext3)已被操作系统(Open Suse 11)多次重新安装为只读模式,然后必须重新启动服务器、执行 fsck,然后再次启动。您觉得哪里出了问题?

答案1

控制器和驱动器的固件应设置为最新或最稳定的版本(您可以向 IBM 技术支持询问版本号和下载链接)

此外,ext3 的文件大小和分区大小都有限制。请查看http://en.wikipedia.org/wiki/Ext3以确保您没有过度使用 FS。

此外,基于 LSI 的控制器曾经限制为 2Tb 逻辑磁盘大小,这已通过最新的固件得到解决。您可能正在使用早期固件,对于较大的逻辑磁盘大小来说,它不太稳定。

答案2

RAID 6 引擎相当新,可能是固件错误。硬件工程师并不总是最好的软件开发人员。

我会先构建 JBOD 来排除故障。然后扩展到 RAID 5、6。如果结果是硬件 RAID 引擎,则可以使用软件 RAID。

就我个人而言,我根本不喜欢 RAID 3+。与 RAID 10 相比,您可以获得更多空间或更高的可用性,但代价是小规模写入时性能降低 4 倍,并且驱动器发生故障时恢复不可靠。

答案3

您是否在使用 LSI SAS 控制器?

我们遇到了一个问题,即任何 SMART 活动(测试、状态等)都会导致控制器重置。这会导致磁盘故障并降低 RAID 性能。

尝试禁用 smartctl、hddtemp 等。基本上禁用使用 SMART 的任何东西

答案4

可能是服务器悄悄破坏了 RAID 集。例如,如果总线出现故障,则可能出现这种情况。在发生故障时,syslog/dmesg 经常会提到 APIC 和/或中断问题。

相关内容