P4500 当所有磁盘的运行状况均为“正常”时,左侧 SAN 报告在一个节点上降级

P4500 当所有磁盘的运行状况均为“正常”时,左侧 SAN 报告在一个节点上降级

我们的 HP G1 左侧 SAN 集群出现了奇怪的情况。该集群由两个站点上的 4 个节点组成,每个站点上的两个节点(节点 1 和 2)是跨对的 RAID5,并且这些节点镜像到我们的 DR 站点(节点 3 和 4)。

DR 站点中的节点 3 在 CMC 中报告性能下降,但是检查 CMC 中的磁盘时,所有磁盘均报告“运行状况正常”,状态为“活动”

RAID 设置中的 /dev/cciss/c0d1 报告性能下降,并且此控制器上的磁盘将“可以安全移除”报告为“否”

有谁知道可能发生了什么事,该设备​​已过保修期。

答案1

根据我的经验,您应该登录到 System Insight 管理页面

https://xxx.xxx.xxx:2381x= 节点的 IP 地址用户“sanmon”密码“sanmon”

检查磁盘状态和 RAID 控制器状态。

我猜你会在那里发现你的问题。

答案2

这听起来像是驱动器、背板或 RAID 控制器的固件问题。您的驱动器有问题,但某些因素阻碍了正确报告故障。

我建议您从上到下检查固件,并根据需要进行升级。HP 有一份文档,列出了其硬件的支持和推荐固件级别。该文档隐藏在他们的网站上,因此打电话询问最新版本是获取它的最佳方式。请非常小心应用固件更新的顺序。有几个特定的​​升级步骤,如果不遵循,将导致主板或控制器损坏。

如果你喜欢冒险,只需重新启动有问题的节点。损坏的驱动器可能会在 RAID 初始化期间显示出来。

答案3

如果设备/dev/cciss/c0d1性能下降,则意味着磁盘存在一些硬件问题。

支持人员需要检查 ADU 报告并找出哪些磁盘报告了读取错误。

如果有多个磁盘出现错误并需要更换,支持可以使此存储节点进入修复模式,更换故障磁盘,重新配置 RAID,最后从幸存的集群节点重新划分节点(相信您没有任何 NRAID0 卷)

相关内容