我们有一个带 2 个节点的 Supermicro Blade。这两个节点完全相同,硬件也完全相同。
我们正在使用这些节点来集群 Hyper-V 服务器。它们是使用 Windows Server 2012 R2 构建的。
第一个节点运行得很好,我们所有的虚拟机都可以在其上运行,没有任何问题。第二个节点让我们完全抓狂。当我们启动它时,没有负载(我的意思是只运行 Windows),节点很好,可以运行几天而没有错误。但是当我们给它加载(也就是虚拟机,是的,甚至是一个虚拟机)时,系统会在大约 2 小时后挂起。挂起的意思是只有一个黑屏,就像处于睡眠状态一样。无法用鼠标或键盘唤醒它。系统不会再响应 ping。返回 Windows 的唯一方法是重新启动它。我们在 Windows 中没有找到有关冻结的任何日志,在 Blade 界面上也没有。所有温度传感器看起来都很好。
因此,我们尝试了很多方法。首先,我们重新安装了 Windows、Hyper-V……(多次)我们将处理器从第一个节点交换到第二个节点。第二个节点仍然出现同样的问题。我们将内存从第一个节点交换到第二个节点。第二个节点仍然挂起。
我们更换了硬盘 (satadom)。我们移除了所有其他硬件 (两个外部 NIC)。更改了刀片中的节点位置。更改了 bios、IPMi、固件...
还是同样的事情。
我们要求 Supermicro 更换主板。
而且!!!!我们仍然有挂起,仅在刀片的第二个节点上,仅当我们将 VM 放入 Hyper-V 时。我们唯一没有改变的是机箱。
我们的第一个节点可以运行大约 30 个虚拟机而不会出现任何问题,但第二个节点无法运行,否则会挂起。有人有什么想法可以帮助我们吗?(如果这不意味着让第二个节点着火就太好了,我的老板不喜欢这个想法)
硬件规格:外壳 Supermicro SBE-710Q 节点:B9DRG (SBI-7127-RG)
谢谢