Raspberry Pi - 使用 Ubuntu 20.04.1 的无盘集群

Raspberry Pi - 使用 Ubuntu 20.04.1 的无盘集群

我正在尝试让 Ubuntu 20.04 在 Raspberry PI 上无盘启动,以便可以在集群上运行 Ubuntu。

到目前为止,我已经将安装了 Ubuntu 的 RPi4b 上的启动分区中的映像移动到了/srv/tftpboot/<serial>/Raspberry Pi 的默认 dnsmasq/TFTP 服务器下,我已经更新了引导加载程序并让 PI 启动。

dnsmasq 日志显示启动时加载的文件:

/var/log/dnsmasq.log

==> /var/log/dnsmasq.log <==
Sep  6 14:25:03 dnsmasq-dhcp[4799]: 1527100745 available DHCP subnet: 192.168.254.254/255.255.255.0
Sep  6 14:25:03 dnsmasq-dhcp[4799]: 1527100745 vendor class: PXEClient:Arch:00000:UNDI:002001
Sep  6 14:25:03 dnsmasq-dhcp[4799]: 1527100745 PXE(eth0) dc:a6:32:b4:48:4f proxy
Sep  6 14:25:03 dnsmasq-dhcp[4799]: 1527100745 tags: eth0
Sep  6 14:25:03 dnsmasq-dhcp[4799]: 1527100745 broadcast response
Sep  6 14:25:03 dnsmasq-dhcp[4799]: 1527100745 sent size:  1 option: 53 message-type  2
Sep  6 14:25:03 dnsmasq-dhcp[4799]: 1527100745 sent size:  4 option: 54 server-identifier  192.168.254.254
Sep  6 14:25:03 dnsmasq-dhcp[4799]: 1527100745 sent size:  9 option: 60 vendor-class  50:58:45:43:6c:69:65:6e:74
Sep  6 14:25:03 dnsmasq-dhcp[4799]: 1527100745 sent size: 17 option: 97 client-machine-id  00:52:50:69:34:14:31:d0:00:32:b4:48:4f:f6...
Sep  6 14:25:03 dnsmasq-dhcp[4799]: 1527100745 sent size: 32 option: 43 vendor-encap  06:01:03:0a:04:00:50:58:45:09:14:00:00:11...
Sep  6 14:25:03 dnsmasq-dhcp[4799]: 1527100745 available DHCP subnet: 192.168.254.254/255.255.255.0
Sep  6 14:25:03 dnsmasq-dhcp[4799]: 1527100745 vendor class: PXEClient:Arch:00000:UNDI:002001
Sep  6 14:25:03 dnsmasq-tftp[4799]: error 0 Early terminate received from 192.168.254.253
Sep  6 14:25:03 dnsmasq-tftp[4799]: failed sending /srv/tftpboot/6b0bb1f6/start4.elf to 192.168.254.253
Sep  6 14:25:03 dnsmasq-tftp[4799]: sent /srv/tftpboot/6b0bb1f6/config.txt to 192.168.254.253
Sep  6 14:25:03 dnsmasq-tftp[4799]: file /srv/tftpboot/6b0bb1f6/pieeprom.sig not found
Sep  6 14:25:03 dnsmasq-tftp[4799]: file /srv/tftpboot/6b0bb1f6/recover4.elf not found
Sep  6 14:25:03 dnsmasq-tftp[4799]: file /srv/tftpboot/6b0bb1f6/recovery.elf not found
Sep  6 14:25:04 dnsmasq-tftp[4799]: sent /srv/tftpboot/6b0bb1f6/start4.elf to 192.168.254.253
Sep  6 14:25:05 dnsmasq-tftp[4799]: sent /srv/tftpboot/6b0bb1f6/fixup4.dat to 192.168.254.253
Sep  6 14:25:05 dnsmasq-tftp[4799]: file /srv/tftpboot/6b0bb1f6/recovery.elf not found
Sep  6 14:25:05 dnsmasq-tftp[4799]: sent /srv/tftpboot/6b0bb1f6/config.txt to 192.168.254.253
Sep  6 14:25:05 dnsmasq-tftp[4799]: sent /srv/tftpboot/6b0bb1f6/syscfg.txt to 192.168.254.253
Sep  6 14:25:05 dnsmasq-tftp[4799]: sent /srv/tftpboot/6b0bb1f6/usercfg.txt to 192.168.254.253
Sep  6 14:25:05 dnsmasq-tftp[4799]: sent /srv/tftpboot/6b0bb1f6/dt-blob.bin to 192.168.254.253
Sep  6 14:25:05 dnsmasq-tftp[4799]: file /srv/tftpboot/6b0bb1f6/recovery.elf not found
Sep  6 14:25:05 dnsmasq-tftp[4799]: sent /srv/tftpboot/6b0bb1f6/config.txt to 192.168.254.253
Sep  6 14:25:05 dnsmasq-tftp[4799]: sent /srv/tftpboot/6b0bb1f6/syscfg.txt to 192.168.254.253
Sep  6 14:25:05 dnsmasq-tftp[4799]: sent /srv/tftpboot/6b0bb1f6/usercfg.txt to 192.168.254.253
Sep  6 14:25:05 dnsmasq-tftp[4799]: file /srv/tftpboot/6b0bb1f6/bootcfg.txt not found
Sep  6 14:25:06 dnsmasq-tftp[4799]: sent /srv/tftpboot/6b0bb1f6/bcm2711-rpi-4-b.dtb to 192.168.254.253
Sep  6 14:25:06 dnsmasq-tftp[4799]: sent /srv/tftpboot/6b0bb1f6/overlays/overlay_map.dtb to 192.168.254.253
Sep  6 14:25:06 dnsmasq-tftp[4799]: sent /srv/tftpboot/6b0bb1f6/config.txt to 192.168.254.253
Sep  6 14:25:06 dnsmasq-tftp[4799]: sent /srv/tftpboot/6b0bb1f6/syscfg.txt to 192.168.254.253
Sep  6 14:25:06 dnsmasq-tftp[4799]: sent /srv/tftpboot/6b0bb1f6/usercfg.txt to 192.168.254.253
Sep  6 14:25:06 dnsmasq-tftp[4799]: sent /srv/tftpboot/6b0bb1f6/cmdline.txt to 192.168.254.253
Sep  6 14:25:08 dnsmasq-tftp[4799]: file /srv/tftpboot/6b0bb1f6/armstub8-gic.bin not found
Sep  6 14:25:08 dnsmasq-tftp[4799]: error 0 Early terminate received from 192.168.254.253
Sep  6 14:25:08 dnsmasq-tftp[4799]: failed sending /srv/tftpboot/6b0bb1f6/uboot_rpi_4.bin to 192.168.254.253
Sep  6 14:25:08 dnsmasq-tftp[4799]: sent /srv/tftpboot/6b0bb1f6/uboot_rpi_4.bin to 192.168.254.253

通常,您会使用 NFS 服务器并更新 cmdline.txt 以包含 rootfs 的位置,这样一旦 initrd 加载,您就可以使用存储在网络上的根 FS。

我找不到有关 Ubuntu 所需选项的太多信息,因此我直接从内核文档中获取了它们:https://www.kernel.org/doc/Documentation/filesystems/nfs/nfsroot.txt

因此我将 TFTP 服务器上的 cmdline.txt 更新为:

命令行

net.ifnames=0 dwc_otg.lpm_enable=0 console=serial0,115200 console=tty1 nfsrootdebug elevator=deadline rootwait fixrtc init=initrd.img ip=dhcp rootfstype=nfs4 root=/dev/nfs nfsroot=192.168.254.254/srv/nfs/6b0bb1f6 rw

我只到达了 U-Boot 控制台。vmlinuz 映像未加载,因此我将 vmlinuz-5.4.0-1016-raspi 解压到已安装的 pi 上的 vmlinux,并在 sdcard 上运行:

zcat /boot/vmlinuz-5.4.0-1016-raspi > vmlinux

并将其放入 TFTP 服务器,然后更新 [all] 部分中的 config.txt 以使用解压缩的图像。

配置.txt

[all]
arm_64bit=1
device_tree_address=0x03000000
enable_uart=1
cmdline=cmdline.txt
include syscfg.txt
include usercfg.txt
kernel=vmlinux
initramfs initrd.img followkernel

我已经设法完成了 initrd 加载,但 NFS 挂载脚本没有挂载 NFS 共享......

nfsmount: need a path
Begin: Retrying nfs mount ...

提取 initrd:

mkdir /root/initrd-expanded
cd /root/initrd-expanded
lz4 -cd /boot/initrd.img-5.4.0-1016-raspi | cpio -id

并查看 nfs 脚本:

# NFS root mounting
nfs_mount_root()
{

    nfs_top

    # For DHCP
    modprobe af_packet

    wait_for_udev 10

    # Default delay is around 180s
    delay=${ROOTDELAY:-180}

    # loop until nfsmount succeeds
    nfs_mount_root_impl
    ret=$?
    nfs_retry_count=0
    while [ ${nfs_retry_count} -lt "${delay}" ] \
        && [ $ret -ne 0 ] ; do
        [ "$quiet" != "y" ] && log_begin_msg "Retrying nfs mount"
        sleep 1
        nfs_mount_root_impl
        ret=$?
        nfs_retry_count=$(( nfs_retry_count + 1 ))
        [ "$quiet" != "y" ] && log_end_msg
    done
}

什么都没有影响 NFS 服务器,tcpdump port nfs并且还添加了调试日志:

/etc/default/nfs 内核服务器

RPCMOUNTDOPTS="--manage-gids --debug all"

看起来传递给 nfsroot 的路径不正确...现在这有点令人困惑。

基础映像安装中 nfsroot= 的处理

nfsroot=192.168.254.254/srv/nfs/6b0bb1f6 -> works
nfsroot=192.168.254.254:/srv/nfs/6b0bb1f6 -> fails

如果你在执行 apt 更新后从已安装的 SDCard 进行安装:

nfsroot=192.168.254.254/srv/nfs/6b0bb1f6 -> fails
nfsroot=192.168.254.254:/srv/nfs/6b0bb1f6 -> works

我花了 5 个小时才弄明白怎么回事。

您无法(或者至少我无法)从 Ubuntu 为 Raspberry PI 提供的映像创建可启动的 NFS 安装系统。想想吧!如果您尝试这样做,您将收到有关服务无法启动的各种错误。

因此,我会回答我自己的问题。

答案1

在 Raspberry PI 4b 上的 Ubuntu 20.04.1 上创建完全无盘系统

1)将 RaspberryPi Lite 安装到 SDCard 上

2)使用 Raspberry OS SDCard 启动 Rpi4,登录并运行以下命令以启用 ssh:

cd /boot
touch ssh
reboot

3)从另一台机器更新引导加载程序。如果您知道 PI 的 IP 地址并且启用了 ssh(如上所述),此脚本将把引导代码设置为 0xf12,这意味着它将按该顺序反复尝试网络、SD 卡、重新启动。如果这篇文章过时了,您可能需要确保固件版本。它还会为您提供一个 env 文件,其中包含方便的串行和 mac 地址,存储在一个<uuid>.rpi.env文件中

./update-bootloader.sh <ip-address-of-the-pi> <ip-address-of-your-nfs-server>

例如

./update-bootloader.sh 192.168.0.254 192.169.0.254

#!/usr/bin/env bash
# update-bootloader.sh - update the boot loader for Rpi4
RPI_IP=$1
KICKSTART_IP=$2
RPI_DEFAULT_PASS="raspberry"
PI_EEPROM_DATE="2020-07-31"
PI_EEPROM_VERSION="pieeprom-${PI_EEPROM_DATE}"
PI_EEPROM_FILE="${PI_EEPROM_VERSION}.bin"
PI_EEPROM_LINK="https://github.com/raspberrypi/rpi-eeprom/raw/master/firmware/stable/${PI_EEPROM_FILE}"
UBUNTU_IMAGE_NAME="ubuntu-20.04.1-preinstalled-server-arm64+raspi.img"
UBUNTU_IMAGE_FILE="${UBUNTU_IMAGE_NAME}.xz"
UUID=$(cat /dev/urandom | tr -dc 'a-zA-Z0-9' | fold -w 32 | head -n 1)

ssh-keygen -R ${RPI_IP}
ssh-keyscan -H ${RPI_IP} >> ~/.ssh/known_hosts
sshpass -p "${RPI_DEFAULT_PASS}" ssh pi@${RPI_IP} << EOF
if [[ -f ${PI_EEPROM_FILE} ]];then
  rm ${PI_EEPROM_FILE}
  echo 'removed eeprom file'
fi

rm *.rpi.env
echo 'removed old env'

rm bootconf.txt
echo 'removed bootconf.txt'

if [[ ! -f ${PI_EEPROM_FILE} ]];then
  wget ${PI_EEPROM_LINK}
fi

echo "extracting boot config from eeprom"
sudo rpi-eeprom-config ${PI_EEPROM_FILE} > bootconf.txt

echo "updating bootconfig"
sed -i 's/BOOT_ORDER=.*/BOOT_ORDER=0xf12/g' bootconf.txt
echo "MAX_RESTARTS=5" | sudo tee -a bootconf.txt

echo "writing eeprom"
sudo rpi-eeprom-config --out ${PI_EEPROM_VERSION}-netboot.bin --config bootconf.txt ${PI_EEPROM_FILE}

echo "updating eeprom on rpi"
sudo rpi-eeprom-update -d -f ./${PI_EEPROM_VERSION}-netboot.bin

echo "getting serial and mac"
cat /proc/cpuinfo | grep Serial | awk -F ': ' '{print \$2}' | tail -c 9 | awk '{print "RPI_SERIAL="\$1}' > ${UUID}.rpi.env
ip addr show eth0 | grep ether | awk '{print \$2}' | awk '{print "RPI_MAC="\$1}' >> ${UUID}.rpi.env
EOF

# copy the pi env back to get the serial and mac
sshpass -p "${RPI_DEFAULT_PASS}" scp -r pi@${RPI_IP}:~/${UUID}.rpi.env ~/${UUID}.rpi.env

sshpass -p "${RPI_DEFAULT_PASS}" ssh pi@${RPI_IP} << EOF
sudo reboot
EOF
cat ~/${UUID}.rpi.env

你的 pi 现在将重新启动并将 ping 你的网络以获取 DHCP 响应。

4)使用 PI Imager 将 Ubuntu 20.04.1 安装到 SD 卡上

5)将 SDCard 插入 Pi 并启动它

6)做一个

apt update -y; apt upgrade -y

设置你的通行证,安装一些软件包,把 vim 放上去(显然,谁会使用 emacs 或 nano??)

7)关闭 pi

halt -p

在您的服务器上

8)取出安装了 Ubuntu 20.04.1 的 SDCard,将其插入服务器,安装驱动器,将操作系统文件从分区 2 复制到 nfs 位置,以便将根目录共享给 PI,可能是 /srv/nfs/<serial>/

# find the partition where your CD card is (mine was sda on a rpi)
fdisk -l 

# mount the sdcard - copy the second partition off (should contain the boot files, you can ignore the boot partition, we can use the files off the root partition)
mkdir /root/p2
mount /dev/sda2 /root/p2
# cp using using -ax will give you a correct copy, man cp if needed
cp -vax /root/p2/. /srv/nfs/<serial>/.
# clean up
umount /root/p2
rm -rf /root/p2

9)将 Rpi 文件的启动文件夹(存储在 NFS 共享中)挂载到您的 TFTP 位置,以便您的 TFTP 可以提供启动文件,我在这里使用 PI 来为其他 PI 提供服务,因此请根据需要进行编辑)

#/etc/fstab
LABEL=writable  /        ext4   defaults        0 0
LABEL=system-boot       /boot/firmware  vfat    defaults        0       1
/srv/nfs/<serial>/boot /srv/tftpboot/<serial> none defaults,bind 0 0

然后挂载新位置

mount -a

10)将 nfs 共享的启动文件夹上的 vmlinuz 提取到 vmlinux 中,因为 pi 不会解压 vmlinuz 内核

zcat /srv/nfs/<serial>/boot/vmlinuz-5.4.0-1016-raspi > /src/nfs/<serial>/boot/vmlinux-5.4.0-1016-raspi

11)在 /srv/nfs/<serial>/boot 分区内创建符号链接,指向 boot 文件夹中缺少的 bcm2711-rpi-4-b.dtb、start4.elf、fixup4.dat 文件,以便 TFTP 在 dtb 和固件文件夹中找到它们

可选 - 清除所有不再需要的垃圾 - 查看我的ls -al输出以查看应该有什么以及我删除了什么。

lrwxrwxrwx 1 root root       41 Sep  7 08:19 bcm2711-rpi-4-b.dtb -> dtbs/5.4.0-1016-raspi/bcm2711-rpi-4-b.dtb
-rw-r--r-- 1 root root      216 Sep  7 08:23 cmdline.txt
-rw-r--r-- 1 root root   220286 Aug 13 15:09 config-5.4.0-1016-raspi
-rw-r--r-- 1 root root      231 Sep  7 08:45 config.txt
lrwxrwxrwx 1 root root       43 Sep  6 20:34 dtb -> dtbs/5.4.0-1016-raspi/./bcm2711-rpi-4-b.dtb
lrwxrwxrwx 1 root root       43 Sep  6 20:34 dtb-5.4.0-1016-raspi -> dtbs/5.4.0-1016-raspi/./bcm2711-rpi-4-b.dtb
drwxr-xr-x 3 root root     4096 Sep  7 07:27 dtbs
drwxr-xr-x 2 root root     4096 Sep  7 07:56 firmware
lrwxrwxrwx 1 root root       19 Sep  7 08:15 fixup4.dat -> firmware/fixup4.dat
lrwxrwxrwx 1 root root       27 Sep  6 20:32 initrd.img -> initrd.img-5.4.0-1016-raspi
-rw-r--r-- 1 root root 29579888 Sep  6 20:34 initrd.img-5.4.0-1016-raspi
lrwxrwxrwx 1 root root       19 Sep  7 07:26 start4.elf -> firmware/start4.elf
-rw-r--r-- 1 root root      327 Sep  7 08:04 syscfg.txt
-rw-r--r-- 1 root root  4162247 Aug 13 15:09 System.map-5.4.0-1016-raspi
-rw-r--r-- 1 root root      200 Sep  7 08:04 usercfg.txt
-rw-r--r-- 1 root root 25907712 Sep  7 08:13 vmlinux-5.4.0-1016-raspi
lrwxrwxrwx 1 root root       24 Sep  6 20:32 vmlinuz -> vmlinuz-5.4.0-1016-raspi
-rw-r--r-- 1 root root  8420251 Aug 13 15:09 vmlinuz-5.4.0-1016-raspi

12)/srv/nfs/<serial>/boot更新分区中的一些配置

#/srv/nfs/<serial>/boot/config.txt
[pi4]
max_framebuffers=2

[all]
arm_64bit=1
device_tree_address=0x03000000
enable_uart=1
cmdline=cmdline.txt
include syscfg.txt
include usercfg.txt
kernel=vmlinux-5.4.0-1016-raspi
initramfs initrd.img-5.4.0-1016-raspi followkernel
#/srv/nfs/<serial>/boot/cmdline.txt
net.ifnames=0 dwc_otg.lpm_enable=0 console=serial0,115200 console=tty1 nfsrootdebug elevator=deadline rootwait fixrtc init=initrd.img ip=dhcp rootfstype=nfs4 root=/dev/nfs nfsroot=<nfs ip>:/srv/nfs/<serial> rw

13)更新 fstab - 这是发送到 pi 的 fstab

#/srv/nfs/<serial>/etc/fstab
proc            /proc           proc    defaults        0       0
<nfs ip>:/srv/nfs/<serial> /       nfs4     defaults,rw,nolock             0       0 # data to be shared to server
<nfs ip>:/srv/nfs/<serial>/boot/firmware /boot/firmware       nfs4     defaults,rw,nolock             0       1 # data to be shared to server
none            /tmp            tmpfs   defaults        0       0
none            /var/run        tmpfs   defaults        0       0
none            /var/lock       tmpfs   defaults        0       0
none            /var/tmp        tmpfs   defaults        0       0

14)安装 NFS 服务器(谷歌搜索)来为 Pi 提供服务

#/etc/exports
/srv/nfs/<serial> *(insecure,rw,async,no_root_squash)
exportfs -ra

15)安装 dnsmasq 服务器(google 是你的朋友)来提供 dhcp 选项并通过 tftp 传输启动映像

#/etc/dnsmasq.conf
dhcp-range=<your network subnet>,proxy # e.g. 192.168.254.254,proxy
log-dhcp
enable-tftp
tftp-root=/srv/tftpboot
pxe-service=0,"Raspberry Pi Boot"
log-facility=/var/log/dnsmasq.log

16)集群?您有多个 Pi?您可以在服务器上使用 overlayfs 安装,使用单个基本根文件系统为多个 Pi 提供操作系统,然后使用覆盖为每个 Pi 提供自己的存储空间和 FS 修改空间。

如果你已经走到这一步,那么这应该很容易:

在你的正确服务器上 - 而不是 PI

17)为基于覆盖 fs 的挂载创建挂载,以便我们可以使用根 fs 作为较低的目录(google overlayfs)

#/etc/fstab
overlay /srv/nfs/6b0bb1f6 overlay defaults,lowerdir=/srv/nfs/ubuntu-rpi4-lower,upperdir=/srv/nfs/6b0bb1f6-upper,workdir=/srv/nfs/6b0bb1f6-work,nfs_export=on,index=on 0 0
overlay /srv/nfs/68e71308 overlay defaults,lowerdir=/srv/nfs/ubuntu-rpi4-lower,upperdir=/srv/nfs/68e71308-upper,workdir=/srv/nfs/68e71308-work,nfs_export=on,index=on 0 0

18)创建 FS 系统来支持覆盖,我的 3 pi 看起来像这样。

# this is inside /srv/nfs
drwxr-xr-x  1 root root 4096 Sep  7 12:47 68e71308
drwxr-xr-x  3 root root 4096 Sep  7 12:47 68e71308-upper
drwxr-xr-x  3 root root 4096 Sep  7 13:25 68e71308-work
drwxr-xr-x  1 root root 4096 Sep  7 12:13 6b0bb1f6
drwxr-xr-x  2 root root 4096 Sep  7 12:13 6b0bb1f6-upper
drwxr-xr-x  4 root root 4096 Sep  7 13:25 6b0bb1f6-work
drwxr-xr-x  1 root root 4096 Sep  7 12:47 917c9833
drwxr-xr-x  2 root root 4096 Sep  7 11:49 917c9833-upper
drwxr-xr-x  2 root root 4096 Sep  7 11:34 917c9833-work
drwxr-xr-x 21 root root 4096 Sep  6 19:58 ubuntu-rpi4-lower

19)您需要将一个文件放入/etc/fstab用于挂载的合并文件夹中(不是上层或工作目录,只是普通的序列命名文件夹),它将覆盖 ubuntu-rpi4-lower 提供的文件夹。Google fusefs 或 overlayfs 了解更多信息,(这就是 docker 容器的工作原理,您不知道吗 :)

20)在 /srv/nfs/<serial>/boot/cmdline.txt 中的每个合并文件夹内创建一个 cmdline.txt

21)通过 nfs 导出合并的文件夹,以便我们的 pi 可以像以前一样使用它们:

#/etc/exports
/srv/nfs/6b0bb1f6 *(rw,sync,no_subtree_check,no_root_squash,fsid=1)
/srv/nfs/917c9833 *(rw,sync,no_subtree_check,no_root_squash,fsid=2)
/srv/nfs/68e71308 *(rw,sync,no_subtree_check,no_root_squash,fsid=3)
exportfs -ra

22)添加新的 Pi 只是一个案例:

22.0)更新引导加载程序

22.1在服务器上创建三个空文件夹

mkdir /srv/nfs/<serial>
mkdir /srv/nfs/<serial>-work
mkdir /srv/nfs/<serial>-upper

22.2)添加一个 fstab,其中包含新串行和上层/工作目录的挂载选项

22.3)添加具有正确 NFS 位置的 cmdline.txt

23)Uber 自动化 如果您愿意,您可以在 RaspberryPi SD 卡的 initrd 中创建一个钩子脚本,该脚本会为您更新引导加载程序,并使用其串行 ping 网络服务器,然后在 Pi 重新启动时添加挂载,它已经从网络启动。我会在某个时候提供它。

答案2

谢谢你的手册。我想补充几点。较新的版本firmwares似乎可以很好地解压内核。(在 5.8 及更高版本上测试)不过,我遇到了文件权限问题vmlinuz

此外,这很混乱。我想无论如何都会有很多人反对它,但如果你需要的话。你可以添加

network inet,
network inet6,

进入/etc/apparmor.d/usr.lib.snapd.snap-confine.real

相关内容