新 lun 运行不佳

新 lun 运行不佳

实际上,我们有一台装有 Oracle Linux 5.8 的服务器,其中我们在其中提供了生产 LUN 的克隆,然后我们打开数据库的克隆以进行多个查询。

当我们执行此命令来查找新的克隆 LUN 时,问题就开始了

查找 /sys/class/scsi_host/host*/scan | 读取行时;执行 echo - - - > $line;完成

然后 multipathd 就不能正常工作了,最后我们无法启动 ASM 实例。唯一的解决办法是重启服务器。最后启动时,它工作正常。

我们在其他装有 AIX 的服务器上也有相同的解决方案,当使用 cfgmgr 发现克隆的 LUN 时,它运行良好。

关于如何使删除、呈现和发现 LUN 的过程顺利且干净,有什么想法吗?

谢谢。

答案1

我曾遇到过 multipathd 因无效/过时的 SCSI 设备条目而无法正常运行的情况,而这些条目对于主机来说已不再可见。(您的multipath -ll输出是否显示failed faulty任何条目?)

删除 LUN 的过程如下(用实际值替换 <...> 中的值):

  1. 通过编辑 SAN 盒上的 HostGroup 来删除 LUN 对主机的可见性
  2. 删除该设备的 SCSI 条目:echo 1 > /sys/block/<sdx>/device/delete
  3. 删除该设备的多路径条目:multipath -f /dev/mapper/<mpath0>
  4. 如果失败(可能是由于排队 I/O,这本身就是一个不好的迹象),则尝试强制删除:
    • 告诉多路径守护进程让此设备的所有 I/O 失败而不是排队:dmsetup message <mpath0> 0 "fail_if_no_path"
    • 等到超时发生(在multipath.conf下查找超时值polling_interval
    • 使用以下方法强制移除设备:dmsetup remove <mpath0> --force

我怀疑问题的根本原因是在删除过程中,并且它只是在扫描新 LUN 时表现为一种症状。

相关内容