大型群组中的 Ansible 性能问题

Question 1

增加叉子

您拥有大量内存和 CPU，因此即使数百个 fork 又称工作线程占用大量资源，也是合理的。ansible.cfg：

[defaults]
forks = 350

serial 是播放的批处理大小。自动同时运行该数量的主机，直到播放结束。如果您只想增加工作线程，请删除 serial 以恢复默认值 100%。serial 还有其他影响，最明显的是，如果一批中的所有主机都失败，播放将停止。

不好的比较：假设你有一个非常大的项目需要编译。串行就像将其分成较小的目标和其他块。但它仍在运行，因此make --jobs=5并行性受到限制。Ansible fork 设置了工作线程的上限。

测量内存使用情况

查找 Ansible 控制器上启动的所有进程，估计它们的内存使用情况，并找出虚拟内存系统是如何被激怒的。你没有说你的操作系统，详细的性能分析与平台密切相关。

例如，如果您使用 systemd Linux，systemd-cgtop -m将显示所有会话和服务。找出总内存使用情况以及是否违反 cgroup 限制。

Ansible 不仅运行 Python，还运行其他程序。可能使用 ssh 进行连接，每个主机每个任务一个，这很多。理论上这些连接都是短暂的，但连接生命周期将我们引向下一个主题：

使用持久连接

令人困惑的是，use_persistent_connections 不适用于 POSIX 主机，不要费心将其设置为 true。这是为网络设备的 libssh 不是用于 Unix/Linux 主机的 OpenSSH ssh 连接插件。

相比之下，ssh_args 由 ssh 连接插件使用。默认添加的 ControlPersist 将告诉 ssh 保持连接，并且后续到同一主机的低级 ssh 连接将跳过连接和身份验证。通常会加快速度。但是，这会增加正在运行的 ssh 程序的数量，因此如果您快速循环 30k 个主机，则需要运行大量 ssh 程序。

考虑进行修改ssh_args以删除 ControlPersist 内容。每个连接开销都会受到影响，但您没有运行那么多 ssh。

检查您的最大进程数或 pid 数是否很大，大概是 60000。

较小的团体

35k 台主机并不是我听说过的最大规模库存，但它很大。Ansible 在很多方面都很重，因此您可能很难通过扩展来快速完成任务。

考虑一次在较小的主机集上运行剧本。--limit 也可以针对目标组，这比在命令行上提供数千个主机要轻松得多。

可以使您的库存足够智能，以各种方式标记主机，并从中生成组。数据中心区域、可用区域、VM 主机、硬件代。或者创建您自己的组名并将库存分成更小的组。

对于较小的组，您可以并行运行多个ansible-playbook --limit程序，可能使用 xargs 或 GNU parallel。或者在不同的控制器主机之间拆分运行。

推送选项

默认的 Ansible 概念是从中央控制器在许多远程主机上运行。但是，一些托管主机可以安装 Python 并自行运行 ansible。因此，您可以在每个托管主机上安装 ansible，并让它在 cron 或其他任何情况下自行运行。

ansible 附带的 ansible-pull 脚本就是一个例子。从版本控制下载剧本，并自动 --limit 到此主机。

这是一种非常不同的操作方法，可能不适用于您想要在托管主机上运行的内容。但这是一种选择。

Answer

增加叉子

您拥有大量内存和 CPU，因此即使数百个 fork 又称工作线程占用大量资源，也是合理的。ansible.cfg：

[defaults]
forks = 350

serial 是播放的批处理大小。自动同时运行该数量的主机，直到播放结束。如果您只想增加工作线程，请删除 serial 以恢复默认值 100%。serial 还有其他影响，最明显的是，如果一批中的所有主机都失败，播放将停止。

不好的比较：假设你有一个非常大的项目需要编译。串行就像将其分成较小的目标和其他块。但它仍在运行，因此make --jobs=5并行性受到限制。Ansible fork 设置了工作线程的上限。

测量内存使用情况

查找 Ansible 控制器上启动的所有进程，估计它们的内存使用情况，并找出虚拟内存系统是如何被激怒的。你没有说你的操作系统，详细的性能分析与平台密切相关。

例如，如果您使用 systemd Linux，systemd-cgtop -m将显示所有会话和服务。找出总内存使用情况以及是否违反 cgroup 限制。

Ansible 不仅运行 Python，还运行其他程序。可能使用 ssh 进行连接，每个主机每个任务一个，这很多。理论上这些连接都是短暂的，但连接生命周期将我们引向下一个主题：

使用持久连接

令人困惑的是，use_persistent_connections 不适用于 POSIX 主机，不要费心将其设置为 true。这是为网络设备的 libssh 不是用于 Unix/Linux 主机的 OpenSSH ssh 连接插件。

相比之下，ssh_args 由 ssh 连接插件使用。默认添加的 ControlPersist 将告诉 ssh 保持连接，并且后续到同一主机的低级 ssh 连接将跳过连接和身份验证。通常会加快速度。但是，这会增加正在运行的 ssh 程序的数量，因此如果您快速循环 30k 个主机，则需要运行大量 ssh 程序。

考虑进行修改ssh_args以删除 ControlPersist 内容。每个连接开销都会受到影响，但您没有运行那么多 ssh。

检查您的最大进程数或 pid 数是否很大，大概是 60000。

较小的团体

35k 台主机并不是我听说过的最大规模库存，但它很大。Ansible 在很多方面都很重，因此您可能很难通过扩展来快速完成任务。

考虑一次在较小的主机集上运行剧本。--limit 也可以针对目标组，这比在命令行上提供数千个主机要轻松得多。

可以使您的库存足够智能，以各种方式标记主机，并从中生成组。数据中心区域、可用区域、VM 主机、硬件代。或者创建您自己的组名并将库存分成更小的组。

对于较小的组，您可以并行运行多个ansible-playbook --limit程序，可能使用 xargs 或 GNU parallel。或者在不同的控制器主机之间拆分运行。

推送选项

默认的 Ansible 概念是从中央控制器在许多远程主机上运行。但是，一些托管主机可以安装 Python 并自行运行 ansible。因此，您可以在每个托管主机上安装 ansible，并让它在 cron 或其他任何情况下自行运行。

ansible 附带的 ansible-pull 脚本就是一个例子。从版本控制下载剧本，并自动 --limit 到此主机。

这是一种非常不同的操作方法，可能不适用于您想要在托管主机上运行的内容。但这是一种选择。

Question 2

你应该尝试使用Ansible 中的 Mitogen它使用不同的方法替换了 Ansible 中的主机通信部分，用他们的话来说，执行速度提高了 1.25 倍 - 7 倍，CPU 使用率降低了 2 倍。

我已经在我的项目中使用了它多年，并没有遇到任何问题。

Answer

你应该尝试使用Ansible 中的 Mitogen它使用不同的方法替换了 Ansible 中的主机通信部分，用他们的话来说，执行速度提高了 1.25 倍 - 7 倍，CPU 使用率降低了 2 倍。

我已经在我的项目中使用了它多年，并没有遇到任何问题。

大型群组中的 Ansible 性能问题

答案1

增加叉子

测量内存使用情况

使用持久连接

较小的团体

推送选项

答案2

相关内容