我在使用单个 ESXI 主机时遇到了一个非常奇怪的问题。
我有 2 个相同的主机,核心 i3,6 个网卡,16g 内存。其中 4 个网卡用于管理、vmotion、vm 网络,全部位于不同的 VLAN 上。它们都连接到静态中继中的 HP Procurve 24 端口千兆交换机。另外两个网卡是 iSCSI。
共有 2 个 VSS,一个有 4 个 nic,另一个只有 2 个 iSCSI 流量。
两台主机的配置相同,硬件也相同。两台主机的 CPU 和内存利用率均约为 30%。它们运行的是 ESXI v. 5.1。
发生的情况是,主机 2 突然脱离 vCenter。(vCenter 托管在物理机器上)。没有错误,只是失去连接。
如果我尝试从 vCenter ping 主机,则无法成功。如果我尝试从我的工作站 ping,则大多数情况下都可以成功,并且我可以通过 SSH 进入。如果我从 DCUI“测试管理网络”,则可以 ping 网关和 DNS 服务器。如果我重新启动管理网络,我仍然无法从 vCenter 进入。
如果我执行 services.sh 重新启动,一切都会完成并且没有错误,但没有帮助,主机仍然无法向 vCenter 注册,也无法被 vCenter ping 通。
到目前为止,唯一能解决这个问题的方法就是完全重启主机。我导出了日志,但目前我还不确定要查找什么。我应该查看哪些日志?我能补充的唯一其他信息是,这似乎发生在一天中的同一时间,即清晨。此时没有运行任何程序,没有备份作业等。
答案1
每当我在白盒硬件上看到这些问题时,我都会检查所涉及的关键组件(NIC、存储)的驱动程序(和固件),然后建议使用以下方法更新到 ESXi 发行版的最新版本:VMware 补丁门户或更新管理器。
无论有没有实验室,你都在运行旧版本:ESXi 1065491与当前ESXi 1483097。
继续并首先运行更新:VMware ESXi 5 补丁是累积的吗?
接下来,我将深入研究实际主机的日志,以查看 vCenter 断开连接时附近发生的情况。检查/var/log/hostd.log
和/var/log/vmkernel.log
。
如果您确定没有任何防火墙、DNS 或其他网络问题,那么这是了解发生了什么的最佳选择。
如果一切都失败了,这是ESXi,并且您有共享存储。花时间对此类构建进行故障排除并不总是有用的,尤其是在其他主机性能良好的情况下。通过 PowerCLI 复制您的设置,重建并恢复主人。