我有一个由 12 个 ESX 主机组成的 vcenter 集群 (ClusterA),以及另一个由 3 个 ESX 主机组成的集群 (ClusterB)。所有这些都是 poweredge r620s 和 r630s 的混合体。
某些主机存在硬件错误,可在 iDRAC 日志和前 LCD 屏幕中看到,例如:
- CPU 机器检查错误
- 可纠正内存错误率超出预期,这导致集群中的这些主机不可用(无响应)。
修复这些硬件错误通常涉及以下步骤:
- 关闭电源
- 删除网卡
- 开机并等待成功启动操作系统
- 关闭电源
- 将相同的网卡放回
- 打开电源对我来说很奇怪这会修复 CPU 和内存错误,但这种情况确实经常发生。
ClusterB 很好 - 从来没有出现过问题。我面临的真正问题是,当我修复 ClusterA 中的几个主机时,ClusterA 中的其他 1-3 个随机主机将在一两天内崩溃。在最初的 1-3 次崩溃之后,如果我不管它,那么几周内就不会再有主机崩溃。这让我回到了开始的地方,而且我已经多次观察到这种行为。
对于要检查什么有什么想法吗?
答案1
R620 / R630 非常老旧,因此首先它们可能已经快不行了,并且有真正的硬件故障。话虽如此,但可能导致这些问题的原因如下:
- 电源 - 尝试在 iDRAC 中静态设置 P 状态并将功率设置为最大输出。如果一切运行不正常,您有时会看到由于功耗节省措施而导致的奇怪处理器行为
- 温度 - 我也曾在正常运行温度之外的数据中心看到过这些错误
- BIOS 补丁 - 那些是一些旧服务器,但是,例如,如果存在 p 状态或其他类似问题,这是获得修复的最佳方式,但我认为戴尔支持已经告诉过你有关此事。
- 其他硬件异常?iDRAC 日志中有什么异常吗?