查找云实例上软件中断百分比较高的根本原因

Question

60 秒内约 20K。

数量并不多；它每秒不到 400 个，并且符合我对多核处于睡眠状态并且有周期性工作要做的机器的预期数量级，因此这些会定期被唤醒。

但是，您可能没有在 2 核（可能更多：1 个 CPU 核和 2 个超线程）服务器上运行现场音频系统（如 jack）。而且，你只有一个可以休眠的核心。

AWS 上基于 2 个 vCPU、16G mem KVM 的云实例上的 Debian 9（延伸）。

啊哈！

对比实际中断处理程序源码中的注释在你的内核版本中:

/*
 * KVM uses this interrupt to force a cpu out of guest mode
 */

换句话说，您的虚拟机或软件可能根本没有任何问题，只是 KVM 管理程序想要切换虚拟机当前使用的 CPU 核心之一来执行其他操作。

据推测，这是因为您的负载很轻，并且亚马逊认为他们可以将相同的 CPU 时间出售给更多用户，因为您不会期望持续拥有的 CPU 核心的全部性能。

做一个实验：运行stress -c 2并查看高负载（无疑对有效负载性能不利）是否会显着减少重新安排中断计数。

然而，你将得到的实际效果很小：我怀疑 aws 会以更高的性能奖励浪费的机器，因此问题是这些重新安排中断是否不可接受 – 它们可能主要发生在你只利用较少的资源时超过两个 CPU 线程的一半。

Answer 1