当 podman 用 systemd 启动时，为什么 conmon 位于不同的 cgroup 中？

Question 1

背后的整个想法podman是摆脱具有超级强大监督者的集中式架构（例如dockerd），其中集中式守护进程是单点故障。甚至还有一个关于此的标签 - ”#nobigfatdaemons”。

如何避免容器集中管理？您删除单个主守护进程（再次，dockerd）并独立启动容器（归根结底，容器只是进程，因此您不需要守护进程来生成它们）。

但是，您仍然需要方法

收集容器的日志——必须有人持有stdout容器stderr；
收集容器的退出代码 - 必须有人wait(2)收集容器的 PID 1；

为此，每个 podman 容器仍然由一个名为conmon（来自“容器监视器”）的小守护程序进行监督。与 Docker 守护进程的区别在于，这个守护进程尽可能小（检查源代码的大小），并且它是按容器生成的。如果conmon一个容器崩溃，系统的其余部分不受影响。

接下来，容器是如何生成的？

考虑到用户可能希望在后台运行容器，就像 Docker 一样，进程podman run会分叉两次然后才执行conmon：

$ strace -fe trace=fork,vfork,clone,execve -qq podman run alpine
execve("/usr/bin/podman", ["podman", "run", "alpine"], 0x7ffeceb01518 /* 30 vars */) = 0
...
[pid  8480] clone(child_stack=0x7fac6bffeef0, flags=CLONE_VM|CLONE_FS|CLONE_FILES|CLONE_SIGHAND|CLONE_THREAD|CLONE_SYSVSEM|CLONE_SETTLS|CLONE_PARENT_SETTID|CLONE_CHILD_CLEARTID, parent_tid=[8484], tls=0x7fac6bfff700, child_tidptr=0x7fac6bfff9d0) = 8484
...
[pid  8484] clone(child_stack=NULL, flags=CLONE_VM|CLONE_VFORK|SIGCHLD <unfinished ...>
[pid  8491] execve("/usr/bin/conmon", ... <unfinished ...>
[pid  8484] <... clone resumed>)        = 8491

podman run和之间的中间进程conmon（即的直接父进程conmon- 在上面的示例中，PID 为 8484）将退出并由conmon重新设置父进程init，从而成为自我管理的守护进程。之后，conmon还分叉运行时（例如runc），最后，运行时执行容器的入口点（例如/bin/sh）。

当容器正在运行时，podman run不再需要它并且可能会退出，但在您的情况下，它保持在线状态，因为您没有要求它与容器分离。

接下来，podman使用 cgroup 来限制容器。这意味着它为新容器创建新的 cgroup 并将进程移至其中。根据 cgroup 的规则，进程一次只能是一个 cgroup 的成员，将进程添加到某个 cgroup 会将其从同一层次结构中的其他 cgroup（之前所在的位置）中删除。所以，当容器启动时，cgroups的最终布局如下所示：保留在由创建的podman runcgroups中，进程放置在自己的cgroup中，容器化进程放置在自己的cgroup中：baz.servicesystemdconmon

$ ps axf
<...>
 1660 ?        Ssl    0:01 /usr/bin/podman run --rm --tty --name baz alpine sh -c while true; do date; sleep 1; done
 1741 ?        Ssl    0:00 /usr/bin/conmon -s -c 2f56e37a0c5ca6f4282cc4c0f4c8e5c899e697303f15c5dc38b2f31d56967ed6 <...>
 1753 pts/0    Ss+    0:02  \_ sh -c while true; do date; sleep 1; done
13043 pts/0    S+     0:00      \_ sleep 1
<...>

$ cd /sys/fs/cgroup/memory/machine.slice
$ ls -d1 libpod*
libpod-2f56e37a0c5ca6f4282cc4c0f4c8e5c899e697303f15c5dc38b2f31d56967ed6.scope
libpod-conmon-2f56e37a0c5ca6f4282cc4c0f4c8e5c899e697303f15c5dc38b2f31d56967ed6.scope

$ cat libpod-2f56e37a0c5ca6f4282cc4c0f4c8e5c899e697303f15c5dc38b2f31d56967ed6.scope/cgroup.procs 
1753
13075

$ cat libpod-conmon-2f56e37a0c5ca6f4282cc4c0f4c8e5c899e697303f15c5dc38b2f31d56967ed6.scope/cgroup.procs 
1741

注意：上面的PID 13075实际上是一个sleep 1进程，是在PID 13043死亡后产生的。

希望这可以帮助。

Answer