VMWare vSphere 和 NFS 的问题:重新出现 apd 状态

VMWare vSphere 和 NFS 的问题:重新出现 apd 状态

我在 2 个不同的设置中遇到了 VMWare vSphere 5.1 和 NFS 存储的问题,导致 NFS 共享处于“全部路径关闭”状态。这种情况最初每天发生一两次,但最近发生的频率更高,尤其是在运行 Acronis Backup 作业时。

设置 1(生产):2 个 ESXi 5.1 主机(Essentials Plus)+ OpenFiler,使用 NFS 作为存储

设置 2(实验室):1 ESXi 5.1 主机 + Ubuntu 12.04 LTS,使用 NFS 作为存储

以下是来自 vmkernel.log 的一个示例:

2013-05-28T08:07:33.479Z cpu0:2054)StorageApdHandler: 248: APD Timer started for ident [987c2dd0-02658e1e]
2013-05-28T08:07:33.479Z cpu0:2054)StorageApdHandler: 395: Device or filesystem with identifier [987c2dd0-02658e1e] has entered the All Paths Down state.
2013-05-28T08:07:33.479Z cpu0:2054)StorageApdHandler: 846: APD Start for ident [987c2dd0-02658e1e]!
2013-05-28T08:07:37.485Z cpu0:2052)NFSLock: 610: Stop accessing fd 0x410007e4cf28  3
2013-05-28T08:07:37.485Z cpu0:2052)NFSLock: 610: Stop accessing fd 0x410007e4d0e8  3
2013-05-28T08:07:41.280Z cpu1:2049)StorageApdHandler: 277: APD Timer killed for ident [987c2dd0-02658e1e]
2013-05-28T08:07:41.280Z cpu1:2049)StorageApdHandler: 402: Device or filesystem with identifier [987c2dd0-02658e1e] has exited the All Paths Down state.
2013-05-28T08:07:41.281Z cpu1:2049)StorageApdHandler: 902: APD Exit for ident [987c2dd0-02658e1e]!
2013-05-28T08:07:52.300Z cpu1:3679)NFSLock: 570: Start accessing fd 0x410007e4d0e8 again
2013-05-28T08:07:52.300Z cpu1:3679)NFSLock: 570: Start accessing fd 0x410007e4cf28 again

如果该问题每天只发生一两次,那其实不算什么问题,但现在该问题已经影响到了虚拟机。虚拟机运行缓慢甚至挂起,导致在生产环境中通过 vCenter 进行重置。

我在网上搜索了很久,也在论坛上提问,但到现在为止没人能帮我。根据博客文章和 VMWare KB 文章,我尝试了以下 NFS 设置:

Net.TcpipHeapSize = 32
Net.TcpipHeapMax = 128
NFS.HartbeatFrequency = 12
NFS.HartbeatMaxFailures = 10
NFS.HartbeatTimeout = 5
NFS.MaxQueueDepth = 64

我已经尝试了其他设置,例如 NFS.MaxQueueDepth = 64,而不是 NFS.MaxQueueDepth = 32 甚至 NFS.MaxQueueDepth = 1。不幸的是,没有任何运气。

如果有人能帮我解决这个问题就太好了。这真的很烦人。

提前感谢所有的帮助。

[更新] 正如我在下面的评论中解释的那样,网络设置如下:

在生产设置中,NFS 流量绑定到 ID 为 20 的单独 VLAN。我使用的是 HP 1810 24 端口交换机。OpenFiler 系统使用 4 个 Intel GbE NIC 和动态 LACP 连接到 VLAN。ESXi 都有 4 个 Intel GbE NIC,使用 2 个静态 LACP 中继,每个中继包含 2 个 NIC。一对连接到常规 LAN,另一对连接到 VLAN 20。

以下是 vSwitch 的屏幕截图: 在此处输入图片描述

交换机配置: 在此处输入图片描述

端口配置: 在此处输入图片描述

在实验室设置中,每侧都有一个英特尔网卡,没有 VLAN,但具有不同的 IP 子网。

答案1

我建议在不使用 ESXi 主机端的静态中继的情况下尝试此操作。它们可能不会达到您的预期(传输速度 > 1Gbps)。尝试不使用静态中继,看看会产生什么影响...我在 ESXi 主机端使用多个 NIC 配置了 NFS 存储,但从存储单元到交换机执行 LACP。

答案2

我遇到了完全相同的问题。结果发现是我的物理交换机出了问题,我将它的 MTU 设置为 9000,而我的 vmk 端口也设置为 9000。这似乎是天作之合。我的交换机希望将其设置为 9000+。不确定加号是多少,因为我绝望地将其设置为 9216(交换机的最大值),它成功了。

相关内容