SUSE Linux HPC 系统上的紧急模式问题

SUSE Linux HPC 系统上的紧急模式问题

我有一个头节点和 4 个工作节点用于高性能计算 (HPC)。

最近,我不得不在我们的数据中心关闭它进行维护。我尝试重新打开系统,但遇到一条错误消息,指出

[ 5.215623][ C14] nvme0: Identify(0x6), Invalid Field in Command (sct 0x0 / sc 0x2)
You are in emergency mode. After logging in, type "journalctl -xb" to view system logs, "systemctl reboot" to reboot, "systemctl default" or "exit" to boot into default mode.
Give root password for maintenance (or press Control-D to continue):

它似乎陷入了一个循环。

最初,我按照建议选择了Ctrl+d来启动到默认模式,但不幸的是,它每次都会循环回到相同的紧急模式错误。

有几件事可能相关:

  • 我不知道,但当我在维护后打开系统时,似乎有一个外部 USB 插在系统背面。我不完全确定这是否会导致问题,但值得一提。

  • 每个节点都需要将两根电源线插入电源适配器。在重新连接过程中,我意识到节点的其中一根电源线最初并未连接到电源。不过,我已经解决了这个问题,现在所有节点都可以按要求供电。

我不是 Linux 专家,所以我有点不知道是什么导致了这个问题。我尝试过在网上寻找解决方案,但似乎没有什么对我有用。

如果你们中的任何人遇到过类似的问题或具有 SUSE Linux 和 HPC 系统方面的专业知识,我将非常感谢您提供有关如何排除和解决此“紧急模式”问题的建议或指导。

相关内容