我们的 HP G1 左侧 SAN 集群出现了奇怪的情况。该集群由两个站点上的 4 个节点组成,每个站点上的两个节点(节点 1 和 2)是跨对的 RAID5,并且这些节点镜像到我们的 DR 站点(节点 3 和 4)。
DR 站点中的节点 3 在 CMC 中报告性能下降,但是检查 CMC 中的磁盘时,所有磁盘均报告“运行状况正常”,状态为“活动”
RAID 设置中的 /dev/cciss/c0d1 报告性能下降,并且此控制器上的磁盘将“可以安全移除”报告为“否”
有谁知道可能发生了什么事,该设备已过保修期。
答案1
根据我的经验,您应该登录到 System Insight 管理页面
https://xxx.xxx.xxx:2381x= 节点的 IP 地址用户“sanmon”密码“sanmon”
检查磁盘状态和 RAID 控制器状态。
我猜你会在那里发现你的问题。
答案2
这听起来像是驱动器、背板或 RAID 控制器的固件问题。您的驱动器有问题,但某些因素阻碍了正确报告故障。
我建议您从上到下检查固件,并根据需要进行升级。HP 有一份文档,列出了其硬件的支持和推荐固件级别。该文档隐藏在他们的网站上,因此打电话询问最新版本是获取它的最佳方式。请非常小心应用固件更新的顺序。有几个特定的升级步骤,如果不遵循,将导致主板或控制器损坏。
如果你喜欢冒险,只需重新启动有问题的节点。损坏的驱动器可能会在 RAID 初始化期间显示出来。
答案3
如果设备/dev/cciss/c0d1
性能下降,则意味着磁盘存在一些硬件问题。
支持人员需要检查 ADU 报告并找出哪些磁盘报告了读取错误。
如果有多个磁盘出现错误并需要更换,支持可以使此存储节点进入修复模式,更换故障磁盘,重新配置 RAID,最后从幸存的集群节点重新划分节点(相信您没有任何 NRAID0 卷)