VMware - vSphere 中持续出现“主机内存状态”警报

VMware - vSphere 中持续出现“主机内存状态”警报

我有一个特定的 VMWare ESX 4.1 主机,它有一个非常持久的“主机内存状态”警报。

这是在 HP ProLiant DL360 G7 服务器上运行的。HP ILO 和系统管理代理不知道任何错误。如果我在 vSphere 客户端中清除警报,它会在一天内返回。我尝试重新安装 DIMM,但是,错误并不表示特定模块存在问题。

集群中还有另一台主机具有相同的配置。它没有出现任何问题。

有什么想法吗?

简要讨论了这一点其他论坛(和这里),没有明确的解决办法。

在此处输入图片描述

答案1

您上次更新 HP ESXi 是什么时候?他们的硬件包中可能存在已解决的错误,或者提供了更多信息。

答案2

我遇到了同样的问题,这篇文章解决了它。我最终不得不执行所有 9 个步骤。

http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=2011531

要解决此问题,您必须清除 硬件状态VMware vCenter Server 中的选项卡。

要清除硬件状态标签:

  1. 前往硬件状态标签。
  2. 点击系统事件日志看法。
  3. 点击重置事件日志
  4. 点击更新. 错误消除。
  5. 点击警报和警告看法。
  6. 点击重置传感器
  7. 点击更新. 记忆清除。

笔记:如果错误没有消失,请通过 SSH 连接到主机。有关更多信息,请参阅在 ESX 主机上启用 root SSH 登录 (8375637)

  1. 运行以下命令重新启动 sfcbd 服务:
    services.sh restart

    运行以下命令在 ESX 中重新启动服务:
    /etc/init.d/sfcbd-watchdog restart

  2. 点击更新. 错误消除。

答案3

我最近在 HP Proliant DL360 G9 和 VCenter 5.5 上遇到了同样的问题。以下是来自无法清除 VMware vCenter Server 4.x 和 5.x 中的硬件状态警告和错误有帮助的是:

要清除硬件状态标签:

  1. 点击硬件状态标签。
  2. 点击系统事件日志看法。
  3. 点击重置事件日志
  4. 点击更新清除错误。
  5. 点击警报和警告看法。
  6. 点击重置传感器
  7. 点击更新清除内存。

注意:如果错误没有消除,请通过 SSH 连接到主机

  1. 运行此命令重新启动sfcbd服务:

    services.sh restart

    运行以下命令service在 ESX 中重新启动:

    /etc/init.d/sfcbd-watchdog restart

  2. 点击更新

也可以看看ESXi 5.x 主机的“硬件状态”选项卡中的警告无法清除文件以了解更多详细信息。

答案4

我在 Dell R640 的 vCenter 7.0.2 中收到了“主机内存状态”警报。我登录 Dell 的 iDRAC 并发现 RAM 错误:

The memory health monitor feature has detected a degradation
in the DIMM installed in DIMM_A1.

Reboot system to initiate self-heal process.

所以有时错误是真正的硬件错误

重新启动后,iDRAC 显示:

The self-heal operation successfully completed at DIMM DIMM_A1.

...并且 vCenter 不再抱怨。

之后,我去 Google 搜索了“自修复 DIMM”,并了解了该消息背后的技术。我之前没有意识到有些 DIMM 问题可以“自修复”,但确实有!

相关内容