userns容器启动失败,如何查找原因?

userns容器启动失败,如何查找原因?

使用以下命令行在 Ubuntu 14.04 上创建用户(非特权)LXC 容器时:

lxc-create -n test1 -t download -- -d $(lsb_release -si|tr 'A-Z' 'a-z') -r $(lsb_release -sc) -a $(dpkg --print-architecture)

并且(不触及创建的配置文件)然后尝试使用以下命令启动它:

lxc-start -n test1 -l DEBUG

它失败。日志文件向我显示:

lxc-start 1420149317.700 INFO     lxc_start_ui - using rcfile /home/user/.local/share/lxc/test1/config
lxc-start 1420149317.700 INFO     lxc_utils - XDG_RUNTIME_DIR isn't set in the environment.
lxc-start 1420149317.701 INFO     lxc_confile - read uid map: type u nsid 0 hostid 100000 range 65536
lxc-start 1420149317.701 INFO     lxc_confile - read uid map: type g nsid 0 hostid 100000 range 65536
lxc-start 1420149317.701 WARN     lxc_log - lxc_log_init called with log already initialized
lxc-start 1420149317.701 INFO     lxc_lsm - LSM security driver AppArmor
lxc-start 1420149317.701 INFO     lxc_utils - XDG_RUNTIME_DIR isn't set in the environment.
lxc-start 1420149317.702 DEBUG    lxc_conf - allocated pty '/dev/pts/2' (5/6)
lxc-start 1420149317.702 DEBUG    lxc_conf - allocated pty '/dev/pts/7' (7/8)
lxc-start 1420149317.702 DEBUG    lxc_conf - allocated pty '/dev/pts/8' (9/10)
lxc-start 1420149317.702 DEBUG    lxc_conf - allocated pty '/dev/pts/10' (11/12)
lxc-start 1420149317.702 INFO     lxc_conf - tty's configured
lxc-start 1420149317.702 DEBUG    lxc_start - sigchild handler set
lxc-start 1420149317.702 DEBUG    lxc_console - opening /dev/tty for console peer
lxc-start 1420149317.702 DEBUG    lxc_console - using '/dev/tty' as console
lxc-start 1420149317.702 DEBUG    lxc_console - 14946 got SIGWINCH fd 17
lxc-start 1420149317.702 DEBUG    lxc_console - set winsz dstfd:14 cols:118 rows:61
lxc-start 1420149317.905 INFO     lxc_start - 'test1' is initialized
lxc-start 1420149317.906 DEBUG    lxc_start - Not dropping cap_sys_boot or watching utmp
lxc-start 1420149317.906 INFO     lxc_start - Cloning a new user namespace
lxc-start 1420149317.906 INFO     lxc_cgroup - cgroup driver cgmanager initing for test1
lxc-start 1420149317.907 ERROR    lxc_cgmanager - call to cgmanager_create_sync failed: invalid request
lxc-start 1420149317.907 ERROR    lxc_cgmanager - Failed to create hugetlb:test1
lxc-start 1420149317.907 ERROR    lxc_cgmanager - Error creating cgroup hugetlb:test1
lxc-start 1420149317.907 INFO     lxc_cgmanager - cgroup removal attempt: hugetlb:test1 did not exist
lxc-start 1420149317.908 INFO     lxc_cgmanager - cgroup removal attempt: perf_event:test1 did not exist
lxc-start 1420149317.908 INFO     lxc_cgmanager - cgroup removal attempt: blkio:test1 did not exist
lxc-start 1420149317.908 INFO     lxc_cgmanager - cgroup removal attempt: freezer:test1 did not exist
lxc-start 1420149317.909 INFO     lxc_cgmanager - cgroup removal attempt: devices:test1 did not exist
lxc-start 1420149317.909 INFO     lxc_cgmanager - cgroup removal attempt: memory:test1 did not exist
lxc-start 1420149317.909 INFO     lxc_cgmanager - cgroup removal attempt: cpuacct:test1 did not exist
lxc-start 1420149317.909 INFO     lxc_cgmanager - cgroup removal attempt: cpu:test1 did not exist
lxc-start 1420149317.910 INFO     lxc_cgmanager - cgroup removal attempt: cpuset:test1 did not exist
lxc-start 1420149317.910 INFO     lxc_cgmanager - cgroup removal attempt: name=systemd:test1 did not exist
lxc-start 1420149317.910 ERROR    lxc_start - failed creating cgroups
lxc-start 1420149317.910 INFO     lxc_utils - XDG_RUNTIME_DIR isn't set in the environment.
lxc-start 1420149317.910 ERROR    lxc_start - failed to spawn 'test1'
lxc-start 1420149317.910 INFO     lxc_utils - XDG_RUNTIME_DIR isn't set in the environment.
lxc-start 1420149317.910 INFO     lxc_utils - XDG_RUNTIME_DIR isn't set in the environment.
lxc-start 1420149317.910 ERROR    lxc_start_ui - The container failed to start.
lxc-start 1420149317.910 ERROR    lxc_start_ui - Additional information can be obtained by setting the --logfile and --logpriority options.

现在我在这里看到两个错误,后者可能是前者的结果,即:

lxc_start - 创建 cgroup 失败

但是,我看到/sys/fs/cgroup已安装:

$ mount|grep cgr
none on /sys/fs/cgroup type tmpfs (rw)

cgmanager安装:

$ dpkg -l|awk '$1 ~ /^ii$/ && /cgmanager/ {print $2 " " $3 " " $4}'
cgmanager 0.24-0ubuntu7 amd64
libcgmanager0:amd64 0.24-0ubuntu7 amd64

注意:我的主机默认仍然为upstart.

如果有任何疑问,内核支持cgroups

$ grep CGROUP /boot/config-$(uname -r)
CONFIG_CGROUPS=y
# CONFIG_CGROUP_DEBUG is not set
CONFIG_CGROUP_FREEZER=y
CONFIG_CGROUP_DEVICE=y
CONFIG_CGROUP_CPUACCT=y
CONFIG_CGROUP_HUGETLB=y
CONFIG_CGROUP_PERF=y
CONFIG_CGROUP_SCHED=y
CONFIG_BLK_CGROUP=y
# CONFIG_DEBUG_BLK_CGROUP is not set
CONFIG_NET_CLS_CGROUP=m
CONFIG_NETPRIO_CGROUP=m

注意:我的主机默认仍然为upstart.

答案1

事实证明,令人惊讶的是,这是 Ubuntu 特有的东西。


原因

问题:虽然内核已cgroups启用(使用 检查grep CGROUP /boot/config-$(uname -r))并cgmanager正在运行,但没有特定于我的用户的 cgroup。您可以通过以下方式检查:

$ 猫 /proc/self/cgroup
11:巨大的:/
10:性能事件:/
9:BLKIO:/
8:冷冻室:/
7:设备:/
6:内存:/
5:cpuacct:/
4:CPU:/
3:名称=系统:/
2:CPU组:/

如果您的 UID 在每个相关行中都给出了,那就没问题,但如果没有定义 cgroup,则每行的第二个冒号后面只会有一个斜杠。

我的问题特定于启动非特权容器。我可以很好地启动特权容器。

事实证明我的问题与lxc-users邮件列表中的此主题

补救

在 Ubuntu 14.04 上upstart是默认设置,而不是systemd.因此,systemd默认情况下不会安装将安装在基于 的发行版上的某些组件。

除此之外,cgmanager我还必须安装两个软件包才能解决我的问题中显示的错误:cgroup-binlibpam-systemd。坦率地说,我不能 100% 确定前者是严格需要的,所以你可以尝试将其省略并在这里发表评论。

安装软件包并重新启动后,您应该id -u在输出中看到您的 UID( ,此处为 1000):

$ 猫 /proc/self/cgroup
11:hugetlb:/user/1000.user/1.session
10:perf_event:/user/1000.user/1.session
9:blkio:/user/1000.user/1.session
8:冷冻室:/user/1000.user/1.session
7:设备:/user/1000.user/1.session
6:内存:/user/1000.user/1.session
5:cpuacct:/user/1000.user/1.session
4:cpu:/user/1000.user/1.session
3:名称=systemd:/user/1000.user/1.session
2:CPU集:/user/1000.user/1.session

之后,尝试启动来宾容器时的错误变为(为了简洁而进行了修剪):

lxc-start 1420160065.383 信息 lxc_cgroup - 为 test1 初始化 cgroup 驱动程序 cgmanager
lxc-start 1420160065.419 错误 lxc_start - 无法创建配置的网络
lxc-start 1420160065.446 错误 lxc_start - 无法生成“test1”
lxc-start 1420160065.451 错误 lxc_start_ui - 容器启动失败。

虽然还没有成功,但我们离成功又近了一步。

上面链接的lxc-users线程指出/etc/systemd/logind.conf没有提及三个控制器:net_clsnet_priodebug。对我来说,只缺少最后一个。不过,更改后您必须重新登录,因为更改将在创建登录会话时生效。

LXC 作者之一的这篇博文给出了下一步:

您的用户虽然可以创建新的用户命名空间,其中 uid 为 0,并且对与该命名空间绑定的资源拥有一些 root 权限,但显然不会在主机上被授予任何额外的权限。

其中一件事是在主机上创建新的网络设备或更改网桥配置。为了解决这个问题,我们编写了一个名为“lxc-user-nic”的工具,它是 LXC 1.0 唯一的 SETUID 二进制部分,并且执行一项简单的任务。它解析配置文件,并根据其内容为用户创建网络设备并桥接它们。为了防止滥用,您可以限制用户可以请求的设备数量以及它们可以添加到的网桥。

一个例子是我自己的 /etc/lxc/lxc-usernet 文件:

stgraber veth lxcbr0 10

这声明用户“stgraber”最多可以创建 10 个 veth 类型设备并将其添加到名为 lxcbr0 的网桥中。

在内核中的用户命名空间和 setuid 工具提供的功能之间,我们已经获得了以非特权方式运行大多数发行版所需的一切。

如果您的用户拥有sudo权限并且您正在使用 Bash,请使用以下命令:

echo "$(whoami) veth lxcbr0 10"|sudo tee -a /etc/lxc/lxc-usernet

并确保类型 ( veth) 与容器配置中的类型匹配,并且桥 ( lxcbr0) 已配置并启动。

现在我们得到另一组错误:

lxc-start 1420192192.775 信息 lxc_start - 克隆新的用户命名空间
lxc-start 1420192192.775 信息 lxc_cgroup - 为 test1 初始化 cgroup 驱动程序 cgmanager
lxc-start 1420192192.923 注意 lxc_start - 在新用户命名空间中切换到 gid/uid 0
lxc-start 1420192192.923 错误 lxc_start - 权限被拒绝 - 无法访问 /home/user。请授予其“x”访问权限,或为容器根添加 ACL。
lxc-start 1420192192.923 错误 lxc_sync - 序列号 1 无效。预期为 2
lxc-start 1420192192.954 错误 lxc_start - 无法生成“test1”
lxc-start 1420192192.959 错误 lxc_start_ui - 容器启动失败。

太棒了,这个可以修复。另一个lxc-users线程由与第一个线程相同的主角铺平了道路。

目前sudo chmod -R o+X $HOME需要进行快速测试,但 ACL 也是一个可行的选择。 YMMV。

相关内容