我有一台配备 PERC H200i 的 Dell PE T710,它具有 6x 500GB SATA 磁盘 +1 个热备用的单个阵列。
这台服务器(及其磁盘)已经完美运行了几年。今天我开始收到有关该服务器高 IO 等待时间的警报。我进行了调查,发现磁盘阵列莫名其妙地慢了下来。没有任何应用程序推送超过最低水平的 IO,并且在大约 22 MB/s 的线性读取或写入(使用 dd)时,它会达到饱和状态,我开始看到顶部 100% 的 IO 等待。在同样的情况下,该阵列之前能够达到 250MB/s。
数周以来,硬件和软件都没有任何改变。
无论如何,这看起来像是硬件问题:从物理上观察阵列,我只看到阵列中 6 个磁盘中的 4 个有活动(闪烁的 LED)。但是,在 OMSA 中,阵列报告为完全正常运行。我重新启动,进入控制器的 BIOS,再次检查,阵列看起来一切正常。我将 f/w 更新为 07.03.06.00 A10,但这没有帮助。
通过 OMSA 使 HDD LED 闪烁确实有效,因此这并不仅仅是明显无法正常运作的驱动器上的 LED 出现故障的情况。
然后我开始对阵列进行一致性检查,到目前为止它没有抱怨,但我仍然只看到 6 个磁盘中的 4 个有活动。
我以前从未见过这种情况,RAID 控制器似乎停止使用 2 个磁盘,同时报告这些磁盘正常且是阵列的一部分。
我的假设是我需要更换 H200 和/或那些磁盘。
不过,我很好奇想知道是否有人以前见过这种行为,以及是否有替代解决方案。
有没有什么方法可以透明地了解使用 H200 的单个磁盘的实际利用率?
感谢您的时间。
编辑: 这些磁盘经过戴尔认证,但其固件从未更新过,大约是 2013 年的。
答案1
更换两个“无响应”磁盘解决了问题。两个镜像集重建,现在所有 6 个磁盘都显示正常活动。重建完成后,线性写入速度为 257 MB/s,对于此阵列来说应该是正常的。
然而,在 USB 外壳中测试时,两个“故障”磁盘没有 SMART 错误,读写速度约为 100 MB/s,这与我对 7200 RPM SATA 磁盘的预期大致相同。因此,我不能说它们失败的,而是控制器停止使用它们。
除了通过物理方式查看 LED 之外,我还没有找到 [在 CentOS 中] 监控单个磁盘利用率的方法。