带有 iSCSI SAN 的 Esxi 在运行多个虚拟机时速度变慢

带有 iSCSI SAN 的 Esxi 在运行多个虚拟机时速度变慢

我有一台带有 ESXi 5 和 iSCSI 附加网络存储(freenas 上的 4x1Tb Raid-Z)的服务器。这两台机器通过千兆以太网相互连接,中间有一个 procurve 交换机。

过了一段时间,如果我运行了许多(4-5 个或更多)虚拟机,它们就会开始变得无响应(在发生任何事情之前会经过很长时间的延迟)。我们正在尝试找出背后的原因。

今天我们查看了 esxtop,发现该 iSCSI LUN 的 DAVG 保持在 70-80。我读到 +30 很关键!

什么原因造成响应时间这么长?

答案1

您可能已经知道,DAVG 指的是磁盘延迟,是的,超过 30 毫秒通常会显著降低性能和响应能力。延迟可能由很多问题引起,但最重要的是您的磁盘必须能够处理您向其施加的 IO 负载。

IO 负载不仅指每秒 IO 数量 (IOPS),还指图案。随机(模式)I/O 几乎就是您对虚拟化服务器的期望,因此您的磁盘配置需要从随机 I/O 角度表现良好。不幸的是,RAID-Z 不符合要求。根据甲骨文

在考虑 RAID-Z 时,随机输入的情况需要特别注意。

实际上,作为初步估计,N 磁盘 RAID-Z 组在交付的随机输入 IOPS 方面将表现得像单个设备。因此,一个 10 磁盘设备组(每个设备都能够提供 200 IOPS)将整体上充当一个能够提供 200 IOPS 的 RAID-Z 组。这是实现适当数据保护而不需要与镜像相关的 2X 块开销所付出的代价。

Oracle 在此处表示,RAID-Z 集可以处理的随机 IOPS 数量与集中的单个磁盘大致相同。单个 7.2k 磁盘可以执行大约 80 IOPS(这可能是一个慷慨的数字,取决于您询问的对象),因此这意味着在 RAID-Z 中,您的整个阵列只能执行 80 随机 IOPS。在如此少的 IOPS 上运行 5-7 个服务器会导致糟糕的性能。

如果您将 4 个驱动器配置为 RAID-10 组,则性能会好得多。如果您需要超过 2TB 的 RAW 容量(这是 RAID-10 中所能获得的容量),请使用 RAID-5。在这种情况下,两者都会比 RAID-Z 提供更好的随机 I/O 性能。

相关内容