同一 vCenter 集群内的 ESX 主机崩溃

2024-6-1 • tag-icon

vmware-esxi vmware-vsphere dell-poweredge vmware-esx vmware-vcenter

同一 vCenter 集群内的 ESX 主机崩溃

我有一个由 12 个 ESX 主机组成的 vcenter 集群 (ClusterA)，以及另一个由 3 个 ESX 主机组成的集群 (ClusterB)。所有这些都是 poweredge r620s 和 r630s 的混合体。

某些主机存在硬件错误，可在 iDRAC 日志和前 LCD 屏幕中看到，例如：

CPU 机器检查错误
可纠正内存错误率超出预期，这导致集群中的这些主机不可用（无响应）。

修复这些硬件错误通常涉及以下步骤：

关闭电源
删除网卡
开机并等待成功启动操作系统
关闭电源
将相同的网卡放回
打开电源对我来说很奇怪这会修复 CPU 和内存错误，但这种情况确实经常发生。

ClusterB 很好 - 从来没有出现过问题。我面临的真正问题是，当我修复 ClusterA 中的几个主机时，ClusterA 中的其他 1-3 个随机主机将在一两天内崩溃。在最初的 1-3 次崩溃之后，如果我不管它，那么几周内就不会再有主机崩溃。这让我回到了开始的地方，而且我已经多次观察到这种行为。

对于要检查什么有什么想法吗？

答案1

R620 / R630 非常老旧，因此首先它们可能已经快不行了，并且有真正的硬件故障。话虽如此，但可能导致这些问题的原因如下：

电源 - 尝试在 iDRAC 中静态设置 P 状态并将功率设置为最大输出。如果一切运行不正常，您有时会看到由于功耗节省措施而导致的奇怪处理器行为
温度 - 我也曾在正常运行温度之外的数据中心看到过这些错误
BIOS 补丁 - 那些是一些旧服务器，但是，例如，如果存在 p 状态或其他类似问题，这是获得修复的最佳方式，但我认为戴尔支持已经告诉过你有关此事。
其他硬件异常？iDRAC 日志中有什么异常吗？

相关内容