我有一台主机,它是 HA 中的 4 主机集群的一部分。
昨天某个时候,我注意到主机停止响应,在 vsphere 控制台中它显示为灰色(无响应),其上的所有虚拟机都显示为(无法访问)。虚拟机本身仍在正常运行,我可以远程桌面访问它们,一切正常。这台机器上有关键服务器。我尝试右键单击主机并“连接”,几个小时后它就失败了。我无法移动其上的虚拟机,所有操作都显示为灰色。在主机上按 F2 会显示登录提示,输入我的凭据后什么也没发生。ALT+F1 不允许我执行任何操作,因为它未启用。SSH 未启用。使用 ALT+F11 我可以看到 hostd 已崩溃,这可能是问题所在。我已经打电话给 Vmware,因为我有全力支持,但经过一个非常短暂的通话后,他说除了强制关闭主机之外别无他法。
我宁愿不这样做,我想重新启动 hostd,但我似乎无法访问。我尝试了 PowerCLI,但与主机的连接超时。Vsphere 直接连接到主机也超时。ping 主机有效,所以至少有网络。
有谁知道还有其他方法可以获取 shell 吗?
谢谢。
更多信息:在 Dell PowerEdge R720、Dell PERC H710 上运行 ESXi 5.5.0 1331820
我检查了 DRAC,发现本地卷运行正常。实际上,它只是一个 raid 1,所有虚拟机都在 SAN 上。vmware esxi 欢迎页面可以正常工作,但如果我单击“浏览此主机清单中的数据存储”,它永远不会显示。mob 似乎也正常工作“hostip/mob/?moid=ServiceInstance&doPath=content”;
在 ALT+F11 控制台上:2014-09-11T7:15:02.329Z cpu12:57750311)hostd 被检测到无响应
相同的线路,不同的时间和 CPU 11 次。
答案1
在我看来,这听起来像是本地存储问题。我在一个有数百台 ESXi 主机的环境中工作,这些主机在本地 RAID 存储上运行。不幸的是,硬件中的本地存储控制器不稳定……这是糟糕的 LSI 固件版本、有缺陷的背板和 Supermicro 硬件的有害组合。
但您描述的行为表明存在本地存储问题。您正在运行的虚拟机位于 RAM 中,网络堆栈不受影响,但管理主机的能力受到损害。您的登录不起作用,因为主机无法从本地磁盘读取。对于任何其他需要磁盘访问的命令也是如此。
最好的选择是安排虚拟机有序关闭(在客户操作系统内)。然后,手动关闭主机(关闭电源、重新启动等)。让它保持维护模式或不在集群选择范围内。打开虚拟机并允许它们在 vSphere 集群中的其他地方运行。
如果您有兴趣调试主机的问题,请检查 Dell DRAC 以获取有关存储阵列状态的信息。这将为您指明正确的方向。