Linux 启动问题

Question

这些[Firmware Bug]消息通常更像是内核开发人员写给系统固件开发人员的公开信：“请遵循规范，这样我们就不必继续发明肮脏的解决方法。”除非问题在 BIOS 更新后立即出现，否则这些不太可能是问题的根本原因。

然而，这可能是：

Jul 06 18:30:26 server_f.project33.ca systemdl11: Failed to mount /boot.

您的文件系统似乎有问题/boot，这会破坏正常的系统启动过程。由于/boot仅引导加载程序和内核更新需要它，因此您可以暂时注释掉/boot并/etc/fstab查看是否可以使系统达到类似于正常状态的状态 - 如果成功，则将使问题的故障排除/boot更加容易。

您的 NVMe 系统磁盘可能有些损坏，或者可能开始死亡。不幸的是，当 SSD 设备开始出现故障时，发生的情况并不像传统 HDD 那样可预测：当 SSD 出现故障时，它们有时会完全消失，没有任何真正的警告信号。

事实上，您的 NVMe SSD 仍然可以正常工作，这一事实似乎令人鼓舞，但站在您的立场上，我会真的担心任何未备份到其他媒体的数据。如果系统包含任何非常重要的内容，我建议找到一种方法将该 NVMe SSD 作为第二个磁盘插入其他计算机，并备份您仍然可以访问的所有内容尽快地在用它做任何其他事情之前。

要评估 NVMe SSD 的运行状况，您可以尝试smartctl -x /dev/nvme0以 root 身份运行，并查看标题后显示的内容=== START OF SMART DATA SECTION ===。

如果该命令不可用，nvme smart-log /dev/nvme0则应提供基本相同的数据，并且nvme error-log /dev/nvme0可能提供有关最近检测到的许多错误（如果有）的更多详细信息。

所以，通过暂时注释掉/boot似乎/etc/fstab已经让系统出现了。（看到你/etc/fstab现在存在的样子在这里会很有帮助：它将最大限度地减少猜测的需要。）

该消息Failed to start LVM event activation on device 8:2涉及主设备号为 8、次设备号为 2 的块设备/dev/sda2。这似乎有一个单独的问题，并且由于您已经从系统中删除了该磁盘，因此该消息不应再出现。

请注意错误消息： XFS (nvme0n1p1): Corruption warning: Metadata has LSN (1:3869) ahead of current LSN (1:3835). Please unmount and run xfs_repair (>= V4.3) to resolve.

这似乎表明根据/etc/fstab你的/bootis/was 直接在分区上/dev/nvme0n1p1，不是作为 LVM 逻辑卷。

假设nvme0n1p1您的是/boot，现在您已经运行并卸载了系统/boot，您可以执行此消息建议的操作，首先运行xfs_repair -V以验证修复工具版本是否为 4.3.0 或更高版本，如果是，请运行xfs_repair /dev/nvme0n1p1。

它可能会告诉你：

ERROR: The filesystem has valuable metadata changes in a log which needs to be replayed. 
Mount the filesystem to replay the log, and unmount it before re-running xfs_repair. 
If you are unable to mount the filesystem, then use the -L option to destroy the log and attempt a repair.
Note that destroying the log may cause corruption — please attempt a mount of the filesystem before doing this.

如果是这样，请尝试安装/boot，以防万一xfs_repair在打印该消息之前确实设法修复了某些问题。如果您无法挂载文件系统（因为之前的尝试肯定没有成功），请按照消息所述操作并运行xfs_repair -L /dev/nvme0n1p1.

输出中blkid，TYPE="LVM2_member指的是LVM物理卷（简称PV）。它不是一个文件系统，因此无法安装，但它可以是一个或多个文件系统或其一部分的容器。您的/dev/nvme0n1p2分区应该显示为TYPE="LVM2_member"包含根文件系统、交换区域和/home文件系统，但显然不是/boot。

文件系统 UUID 本身不会更改：要更改它们，您需要使用mkfs（实际上丢失其中的所有现有数据）重新格式化分区或 LVM 逻辑卷，或使用特定于文件系统的工具将新的 UUID 分配给文件系统。因此， /bootin的 UUID/etc/fstab不需要更改，除非它/etc/fstab本身已损坏，或者您之前对/boot文件系统做了一些您没有告诉我们的操作。

如果 /dev/nvme0n1p1也出现了TYPE="LVM2_member"，那么这意味着您已经/boot用命令覆盖了您的文件系统pvcreate /dev/nvme0n1p1。如果属实，那肯定可以解释腐败现象。

无论如何，如果上述xfs_repair过程无法修复文件系统以便安装它，最后的手段就是/boot从头开始重建文件系统。

此过程显然会使系统在成功完成之前无法启动，因此请勿在中间重新启动。首先使用（不要打错字，这是破坏性的！）重新格式化损坏的/boot文件系统，然后使用查看其新的 UUID，重新启用该条目并将其 UUID 更改为新的，然后.mkfs.xfs /dev/nvme0n1p1lsblk -o +UUID /dev/nvme0n1p1/boot/etc/fstabmount /boot

之后，使用您的包管理器重新安装任何当前安装的内核软件包：软件包管理工具应该有一个特定的选项，有效地告诉它“是的，您的数据库说这个软件包已经安装了，但无论如何将其文件重写回原位，以替换任何丢失的文件并覆盖可能损坏的文件那些”。

完成后，使用例如重新安装引导加载程序grub2-install /dev/nvme0n1。验证您的/boot/grub2/grub.cfg存在并包含您安装的内核版本；如有必要，请运行grub2-mkconfig > /boot/grub2/grub.cfg以重建配置。此时，您的系统应该可以再次启动。

Answer 1

这些[Firmware Bug]消息通常更像是内核开发人员写给系统固件开发人员的公开信：“请遵循规范，这样我们就不必继续发明肮脏的解决方法。”除非问题在 BIOS 更新后立即出现，否则这些不太可能是问题的根本原因。

然而，这可能是：

Jul 06 18:30:26 server_f.project33.ca systemdl11: Failed to mount /boot.