在我的办公室,我们有一台服务器,我们怀疑它的 RAID 控制器 (HP Smartarray) 出现故障。但是冷启动并没有显示任何信息。
有人能推荐我一种对控制器进行压力测试的方法吗?
让我怀疑控制器出现故障的症状:
- 磁盘访问越来越慢,队列越来越长
在 XenServer 控制台上运行时
dmesg
,我看到许多类似以下的消息:end_request: I/O error, dev tda, sector 253655584
(扇区号永远不会相同)
当我们将虚拟机移至另一台物理主机时,我们不再看到上述消息
- 运行空闲(没有任何正在运行的虚拟机),不再
dmesg
发出上述消息
谷歌搜索表明,上述消息通常与故障的 SmartArray 控制器有关。
我如何确定 SmartArray 控制器是否出现故障?
答案1
HP Smart Array 控制器很少发生故障。通常故障是突然发生的,而不是随着时间的推移而恶化的。
无论哪种方式,您都可以通过启动HP SmartStart DVD包含在服务器中并运行 HP阵列诊断实用程序 (ADU)。
您没有指出服务器或 RAID 控制器的型号或代数(这些信息很有帮助),但链接的 DVD 映像应该涵盖最新的 HP 系统。
至于运行在线压力测试,强调效用这对于该目的来说是很好的。
答案2
当一个驱动器缓慢发生故障,但还不足以完全损坏或超过计数器阈值以表明发生故障时,我经历了 RAID 阵列的不稳定行为。
首先:我假设您已将 RAID 设置为某种冗余配置,例如 RAID 10 或 RAID 5?并且您已配置热备用(或至少手头有备用驱动器)?
启动 hp 阵列管理软件并查看每个驱动器的 SMART 数据。找出比其他驱动器具有更多错误的其他驱动器。
从您识别的驱动器之一开始,取出一个驱动器。如果有热备用,请等待重建。然后再次测试,看看情况是否有所改善。如果是,那么您就找到了您的驱动器。如果没有,请重新安装驱动器并重复下一个操作。
此外,根据我的经验,升级硬盘和控制器上的固件可以改善对故障驱动器的检测。