在我们的 24 核 bl685(4 插槽 x 6 核)上,我们发现 NUMA 节点 0 和 1 非常繁忙(不幸的是导致 VMS 上的 CPU 就绪时间增加),而 NUMA 节点 2 和 3 几乎未被使用。
我认为这可能只是 ESX4 U1 的问题,因此我让一位拥有 32 核 (dl785) 服务器场的同事进行调查,发现他的最后 3 或 4 个 NUMA 节点似乎也没有真正得到利用。
在平衡轻负载的 NUMA 盒时,ESX 似乎存在弱点,我将在 BIOS 中启用节点交错,看看调度程序是否平衡所有 24 个核心,而不仅仅是 12 个!...
对于那些拥有大量核心的用户,我建议你启动 viclient,并检查物理 CPU 使用率(或 esxtop),我很想知道你的结果是什么。请注意,只有轻负载(例如 esx 主机上的 CPU 负载低于 30%)似乎才存在负载不平衡的最大问题。
想法/评论。
PS 我已向 vmware 提交了一份 SR 以提供帮助,另外,另一个“问题”可能是我们在每个主机上都有 128gb 的 RAM,因此调度程序认为没有理由不尝试将所有 vm 塞进前两个 NUMA 节点,因为每个主机上只有大约 50gb 的 RAM 用于 vm...
答案1
我没有使用 NUMA 的经验,但我们确实运行了几个“高核心数”ESX 3.5 服务器。
我们发现核心 0 通常由控制台使用,那么您在控制台主机上运行的任何东西都可以解释这一点吗?
例如,我们以批处理模式运行 esxtop 来记录非常低级别的统计数据,并且这些统计数据每晚都会被压缩,并且全部在 CPU/核心 0 上。