在我的公司,我们的一个 ESXi 实例遇到了 IO 延迟的一些奇怪的峰值。
我们花了 24 小时来查找问题所在,但至今仍没有任何线索。
放弃之后,我们将所有磁盘放入另一台服务器(HP DL380 G7),该服务器的 RAM 少得多,只有一个 6(HT)核心(DL 580 上有 12 个),运行良好约 2 小时。
我不知道 DL380 的规格,但两台服务器都配有带 BBWC 的智能阵列 P410i(DL 580 有 1GB)
是否有可能其中一个(或所有)磁盘发生故障但实际上并未发生故障?
答案1
在 DL580 系统的 24 小时内,您采取了哪些步骤来排除故障?
这两个系统都具有相同的 Smart Array P410 RAID 控制器。DL580 G7 和 DL380 G7 上的缓存平衡配置是否相同?
对于像 VMWare ESXi 本地存储这样的用途,我会将控制器设置为 25%:75% 的读写比率。
现在详细一点...请务必查看以下内容:
- 你使用的是哪个版本的 VMWare ESXi?它是否最新版本?
- 尝试安装HP 健康代理如果可能的话。这将向 VMWare 报告阵列和控制器的运行状况。
- 安装HP 实用程序将允许您从 VMWare 查询运行状况并管理 RAID 控制器。
- RAID 阵列配置是什么?有多少个磁盘?您的标签显示
RAID 6
。RAID 6
是糟糕的选择对于混合虚拟机工作负载,这可能是一个考虑因素。 - 您是如何测量延迟峰值的?从虚拟机内部测量?在数据存储级别测量?
esxtop
根据您的测量方法,这可能是虚拟机级别的问题。 - 确保固件服务器上的 RAID 控制器和相关软件是否是最新的。这确实能在 HP 设备上有所作为。由于您正在使用 VMWare,我只需下载当前的HP 固件 DVD然后启动它(插入磁盘)。这将使一切保持最新状态,并减少固件错误导致问题的可能性。
答案2
如果有人遇到同样的问题:确实是其中一个磁盘出现故障,今天早些时候我们回来后发现四个磁盘中的一个带有琥珀色 LED。
突袭控制器发现它失败后,一切都恢复正常,当我们切换回原始服务器后,延迟再次低于 10 毫秒。
尽管 DL380 G7 无法识别它的电容器并且无法激活其缓存,但那是另一个故事。