RDAC MPP 驱动程序不稳定路径故障转移错误

RDAC MPP 驱动程序不稳定路径故障转移错误

在我的中央系统日志中,我可以看到来自 Linux 的 LSI 的 RDAC 多路径驱动程序的一些以下错误实例。

[RAIDarray.mpp]MY_NICE_STORAGE_ARRAY:1:0:7 Cmnd-failed try alt ctrl 0. vcmnd SN 2436 pdev H1:C0:T0:L7 0x05/0x94/0x01 0x08000002 mpp_status:1

还有一些例子

[RAIDarray.mpp]MY_NICE_STORAGE_ARRAY:1:0:10 Illegal Request ASC/ASCQ 0x20/0x0, SKSBs 0x0/0x0/0x0

其次是

[RAIDarray.mpp]MY_NICE_STORAGE_ARRAY:1:0:10 IO FAILURE. vcmnd SN 887 pdev H2:C0:T0:L10 0x05/0x20/0x00 0x08000002 mpp_status:1

我白天几乎从 SAN 中的所有机器上都获取了此信息,但不是一次性获取所有机器的信息 - 通常 5 小时内获取其中一台。所有 FC 交换机和所有 FC HBA 从今天起均未显示任何错误,并且我检查时所有到任何 LUN 的路径均已启动。性能(IOPS 和顺序访问)也非常好。有人见过这种情况吗?

答案1

出色地ASC/ASCQ 0x20/0x0翻译为无效命令操作代码也可能是“CDB 中的无效字段”,例如,此目标不支持此命令。我们不知道导致此后果的命令到底是什么。为此专有 MP 驱动程序启用详细调试可能会有所帮助。

特定于供应商的多路径驱动程序消息没有太大帮助:

[RAIDarray.mpp]MY_NICE_STORAGE_ARRAY:1:0:7 命令失败尝试 alt ctrl 0。vcmnd SN 2436 pdev H1:C0:T0:L7 0x05/0x94/0x01 0x08000002 mpp_status:1

0x02状态字节是否设置为检查状况,这意味着我们有问题,驱动字节是0x08供应商想要什么都可以。我不知道是什么0x05/0x94/0x01代表寻求支持。

鉴于这是 SAN 范围内的问题,并且假设您在所有 SAN 上运行相同的 LSI RDAC MP 工具,我会集中精力解决 LSI MP 错误或 SAN 配置问题。我还会研究任何集群配置,确保它们没有被意外打开。

由于您使用的是 LSI mpath 驱动程序,因此您应该真正从他们的支持开始,然后从那里开始。保持观点很重要,因为到目前为止,这条消息还没有导致任何致命或有害的行为,您到目前为止已经测量过了。如果/当支持要求您重新组装 SAN 时,请记住这一点 ;)。

相关内容