HP DL580 G7 上的 ESXi 4.1 的 IO 延迟较高

HP DL580 G7 上的 ESXi 4.1 的 IO 延迟较高

在我的公司,我们的一个 ESXi 实例遇到了 IO 延迟的一些奇怪的峰值。

我们花了 24 小时来查找问题所在,但至今仍没有任何线索。

放弃之后,我们将所有磁盘放入另一台服务器(HP DL380 G7),该服务器的 RAM 少得多,只有一个 6(HT)核心(DL 580 上有 12 个),运行良好约 2 小时。

我不知道 DL380 的规格,但两台服务器都配有带 BBWC 的智能阵列 P410i(DL 580 有 1GB)

是否有可能其中一个(或所有)磁盘发生故障但实际上并未发生故障?

答案1

在 DL580 系统的 24 小时内,您采取了哪些步骤来排除故障?

这两个系统都具有相同的 Smart Array P410 RAID 控制器。DL580 G7 和 DL380 G7 上的缓存平衡配置是否相同?

对于像 VMWare ESXi 本地存储这样的用途,我会将控制器设置为 25%:75% 的读写比率。

现在详细一点...请务必查看以下内容:

  • 你使用的是哪个版本的 VMWare ESXi?它是否最新版本
  • 尝试安装HP 健康代理如果可能的话。这将向 VMWare 报告阵列和控制器的运行状况。
  • 安装HP 实用程序将允许您从 VMWare 查询运行状况并管理 RAID 控制器。
  • RAID 阵列配置是什么?有多少个磁盘?您的标签显示RAID 6RAID 6糟糕的选择对于混合虚拟机工作负载,这可能是一个考虑因素。
  • 您是如何测量延迟峰值的?从虚拟机内部测量?在数据存储级别测量?esxtop根据您的测量方法,这可能是虚拟机级别的问题。
  • 确保固件服务器上的 RAID 控制器和相关软件是否是最新的。这确实在 HP 设备上有所作为。由于您正在使用 VMWare,我只需下载当前的HP 固件 DVD然后启动它(插入磁盘)。这将使一切保持最新状态,并减少固件错误导致问题的可能性。

答案2

如果有人遇到同样的问题:确实是其中一个磁盘出现故障,今天早些时候我们回来后发现四个磁盘中的一个带有琥珀色 LED。

突袭控制器发现它失败后,一切都恢复正常,当我们切换回原始服务器后,延迟再次低于 10 毫秒。

尽管 DL380 G7 无法识别它的电容器并且无法激活其缓存,但那是另一个故事。

相关内容