RAID 性能糟糕

RAID 性能糟糕

我有一个小型 GlusterFS 集群,其中有两台存储服务器提供复制卷。每台服务器有 2 个 SAS 磁盘用于操作系统和日志,22 个 SATA 磁盘用于实际数据,使用 MegaRAID SAS 9280-4i4e 以 RAID10 形式条带化,配置如下:http://pastebin.com/2xj4401J

连接到该集群的还有一些其他服务器,这些服务器运行着 nginx 的本机客户端,以提供存储在其上的 3-10MB 左右的文件。

目前,存储服务器的传出带宽为 300Mbit/s,RAID 阵列的繁忙率为 30-40%。还存在奇怪的副作用:有时 io 延迟会急剧上升,并且超过 10 秒内无法访问 RAID。使用的文件系统是 xfs,并且已对其进行调整以匹配 RAID 条带大小。

有人知道阵列性能如此差的原因是什么吗?RAID10 中的 22 个磁盘应该可以方式更高的吞吐量。

答案1

有人对着你的硬盘大喊? :-)

更严重的是:在 I/O 延迟峰值期间是否有大量写入活动?您是否尝试过使用iotop和/或btrace查看幕后发生了什么?

也许 RAID 控制器会在峰值期间刷新其缓存并阻止所有内容直到完成?

答案2

如果您能记录峰值,我们就有更多的工作要做。无论如何,没有明显的配置问题,我有理由相信这可能是硬件问题。我会先更换卡,然后如果磁盘在保修期内,也许会更换磁盘。

相关内容