LSI 9271 RAID 控制器上的数据传输暂停

LSI 9271 RAID 控制器上的数据传输暂停

我有一台配备 LSI 9271-8i RAID 控制器的服务器,其中 4 x 4TB 组织为 RAID-5,1 x 8TB 组织为 JBOD(在控制器中称为 RAID-0)。

当我复制大量数据(约 1 TB)时,我可以观察到以下情况:对于前几 GB,传输速度很好,受磁盘或网络速度限制,通常约为 100MB/s。但过了一会儿,传输完全暂停约 20-30 秒,然后继续传输下一个约 1 GB。我复制了很多文件,每个文件在 10MB 到 500MB 之间,在暂停期间,robocopy 停留在一个文件上,暂停后继续传输下一个文件。这样,整体传输速率就会下降到约 20MB/s。

在暂停期间,无法浏览驱动器的文件,有一次我收到了控制器重置错误消息(“控制器遇到致命错误并被重置”)。在暂停期间,也无法使用 CLI 工具访问控制器数据(暂停结束后会显示结果)。

我可以在复制时观察到这种行为

  • 千兆网络至 RAID-5 卷
  • 千兆网络至 JBOD 卷
  • JBOD 到 RAID-5
  • RAID-5 至 JBOD

在我看来,没有任何可疑的事情发生:温度(磁盘、BBU)在有效范围内,控制器温度似乎有点高,但也在规格范围内。没有对 RAID 进行检查,也没有进行重建。

有什么猜测吗?

在更换控制器之前,我想尝试优化散热情况。这种行为听起来像是可能存在的散热问题吗?

我觉得很奇怪,前 20-30 GB 工作正常,在此之前没有出现暂停。如果我让服务器静置一段时间并重试,那么几个 GB 又可以正常复制。对我来说,唯一天真的解释是控制器太热了。为什么是控制器而不是磁盘?RAID-5 磁盘为 7200rpm,堆叠非常紧密,而 JBOD 单磁盘为 5400rpm,周围有很多空气。如果两者都出现相同的过热症状,那将很奇怪。

答案1

我在使用 9260-16i 时也遇到过类似的问题。这不是温度问题,因为我有两个 92 毫米风扇,直接吹向 LSI。我以同样的方式设置了第二台服务器,它运行正常。我发现有问题的服务器设置了 64K 条带大小,而正常工作的服务器的条带大小为 256K。我备份了有问题的服务器,重建了 256K 条带大小的驱动器组,然后使用 64K 群集格式化了 OS 驱动器(因为我有多个 GB 的文件)。我一直在将数据移回,没有任何犹豫,基本上以全千兆位 NIC 速度运行,写入速度超过每小时 350GB,没有停顿。

答案2

该问题可能与控制器刷新其自身的 DRAM 缓存有关。任何遇到此类问题的人都应尝试将控制器缓存设置为writethrough而不是writeback

相关内容