群集 Hyper-V 环境故障

群集 Hyper-V 环境故障

我们拥有一个双主机光纤(NIC Team)和铜缆(Nic Team2)环境。主机已集群化并使用 2012-R2 Standard(已更新),带有 Hyper-V 集群和存储池。虚拟机大约有 50 台 Debian 机器,分布均匀。网络有三个子网:集群、交换机 0、交换机 1。两个是集群和客户端,一个仅是集群。

每隔一段时间,整个环境就会崩溃。最明显的迹象是虚拟机上的 CPU 突然达到 100%,并且物理机和虚拟机的网络访问都无法使用。解决此问题的唯一方法是强制关闭两台主机,完成后即可恢复正常。

现在,我认为通过爬取日志并查看我们的汇总日志和性能数据,我了解到了以下内容(注意:并非每条消息都适用于每个事件,这是一个汇总):

视窗:

-TCP 端口耗尽/TCP 本地端点与远程端点相同,重复使用本地端口 - 事件 ID 4227

-通过网络重定向 I/O 访问 - EventCode=5121

- 集群共享卷已暂停 - EventCode=5121

-TCP 本地端点与远程端点相同,重复使用本地端口 - 事件 ID 4227

- 短暂端口耗尽 - 事件 ID 4231

Linux:

-TOP 中的高 CPU —— ksoftirq

我的解释是:主机或虚拟机端存在泄漏,占用了所有 TCP 端口并导致 VMQ 备份。这会在环境中造成积压,最终导致崩溃。

我的问题:如何确定问题的具体原因?在不了解具体细节的情况下,是否有方法可以缓解此问题?

答案1

由于 Teaming 功能没有任何内置的负载平衡功能,无法在组合 NIC 之间均衡负载,因此问题可能出在配置的 NIC 组合方面,您是否尝试过出于测试目的删除组合?

答案2

不是直接的答案,而是一些一般性建议


我们遇到的大多数问题都通过安装 MS 发布的修补程序得到解决。修补程序数量如此之多,以至于他们专门开辟了页面来列出它们,而且我认为他们没有费心将它们全部纳入更新:

Hyper-V 2012 R2 及相关修补程序(还有指向其他相关列表的链接,例如 HNV、集群)

有人发布了一个脚本,可以安装大部分内容。我认为它是这个

除此之外。如果您怀疑它与 VMQ 有关,您是否尝试过在 VM 级别调整配置或将其关闭?

正确配置 VMQ 的指南

我们看到的暂停状态也是由两件事引起的。存储性能缓慢和 LUN 过大。后者只有在备份窗口期间有太多活动 VSS 快照时才会出现问题 - 在这种情况下可能不相关。检查集群诊断日志以获取有关自动暂停事件的更多信息,或在网络上查找(例如)c000026e 状态/原因代码。

CSV 故障排除

除此之外... NIC 和存储设备上的驱动程序和固件更新。

相关内容