诊断 SAN 连接问题(RHEL5)

诊断 SAN 连接问题(RHEL5)

我们目前使用 GFS2 在 3 个服务器之间共享 SAN LUN。但是由于我们使用的供应商软件存在功能问题,我们目前已在两个服务器中卸载了卷,而是从第一个服务器通过 NFS 导出 GFS2 文件系统(该软件需要一些奇怪的锁定机制,而 GFS2 不支持)。

从今天早上起,NFS 不再能够从任何服务器(包括 NFS 服务器)读取/写入该卷。然后我尝试检查正常挂载(在 NFS 服务器上导出的目录),并在尝试将 CD 插入其中时收到奇怪的输入/输出错误。当我尝试运行多路径时,我收到 DM 错误,但多路径 -l 工作正常。我尝试卸载 GFS2 卷,但 CLI 挂起。我运行了 init 0,它终止了大多数服务,但随后关机似乎已挂起。我通过带外访问(hp ILO)登录,发现关机在尝试卸载 GFS2 卷时已挂起。

我的主要任务是让盒子重新上线,所以在等待了大约 5 分钟后,我进行了硬重置。我现在想弄清楚出了什么问题。要调查的正确日志是什么?我以前从未遇到过这样的 SAN 问题。SAN 通过 2 个光纤连接。任何帮助都将不胜感激。现在一切似乎都已恢复正常并正常运行。

答案1

Linux 上没有特殊日志 - 通常使用 dmesg/syslog。

对于 SAN 交换机,访问日志的方式是特定于供应商的(在 Brocade -> ssh admin@x -> errdump 上)。

对于 SAN 磁盘存储,访问日志的方式是特定于供应商的(在 LSI -> GUI -> 事件日志 -> 关闭 show_critical_only -> 刷新)。

首先,请验证 SAN 交换机和 SAN 存储是否都具有 ntp(或其他时间同步),否则您永远不会知道哪个错误是原因、哪个是结果。

检查最可能的原因,验证您的多路径/GFS2 对意外 FC 电缆移除的反应。

检查第二个可能的原因,验证您的多路径/GFS2 对 SAN 磁盘阵列控制器意外中断的反应。

相关内容