ESX 主机与 iSCSI SAN LUN 失去连接

ESX 主机与 iSCSI SAN LUN 失去连接

几个月来我一直遇到这个问题,我的 ESX 主机与我的 iSCSI SAN vmfs 卷失去了连接。

结果,ESX 主机进入无响应模式,相关虚拟机断开连接,唯一的补救措施是重新启动主机。

此问题随机发生。我已向 VMWare 上报此问题,但尚未得到任何解决方案。

我发现我的交换机上没有错误,也没有硬件问题。我的 SAN 基础设施很稳定,每个 vmfs 卷都有 2 条路径。

还有其他人遇到过类似的问题吗?

编辑:以下是更多详细信息:

iSCSI SAN 软件是运行在 2 台 HP Proliant G5 服务器上的 Datacore Sanmelody 2.0.4.2。每台服务器连接的存储都是 HP MSA70,并且呈现给我的 4 台 ESX 主机的所有 iSCSI SAN 卷都是镜像的。

我有两个 iSCSI 交换机 HP Procurve 1800G-24,它们被中继在一起。我的 SANLELODY 服务器使用 NC360T NIC。我将两个 NIC 组合在一起,并使用一根电缆连接到每个 iSCSi 交换机。每个 ESX 服务器也使用两个 NIC 来组成 iSCSI 网络。

答案1

让我们尝试一种稍微复杂一点的方法。尝试使用其他 iSCSI 解决方案来检查是 ESX 问题还是 iSCSI 本身的问题。

我会推荐你星风。您可以在那里下载试用版。

答案2

我们需要知道 ESX 版本才能正确诊断这种情况。

我们之前在 ESX 3.5 Update 3 上遇到了这个问题,解决办法是更新/修补主机,此知识库文章升级到更新 4(及以后)后,该问题没有再次出现。

如果您已经安装了此补丁,您能否提供有关版本的更多详细信息,以及可能来自某个 ESX 主机的一些诊断数据?通常,vmkernel.log 是一个很好的起点。

答案3

也许,你应该禁用 iscsi ping,正如解释的那样这里

答案4

我在 ESXi 4、HP Procurve 交换机和 HP Lefthand SAN 上遇到了非常类似的问题。我们的问题是,虽然硬件 iSCSI 启动器可以工作,但它们只能在 99% 的时间内工作,从而导致随机锁定、断开连接等。事实证明,Broadcom NIC(带有硬件 iSCSI)与 Lefthand SAN 不兼容。使用软件 iSCSI 启动器解决了我们的问题。

相关内容