我使用 MAAS 2.4.2 来管理工作中的一组计算机。昨天我不得不重新启动一个节点(已部署)来修复驱动程序问题。它再也没有恢复。我能够通过 IPMI 进入机器进行检查,发现它卡在启动过程中。我尝试重新启动,但无济于事。我认为这与我对驱动程序所做的事情有关,因此我尝试进入 MAAS 救援模式。但是,在启动临时救援映像时,启动卡在了同一个地方。我一时兴起,尝试释放并重新部署机器:同样的事情,用于部署的临时映像开始正常启动,然后卡住了。这是计算机在尝试部署时的样子:
对我来说,这有点像节点无法与 MAAS 服务器通信并卡在那里。我不知道这是否会导致启动无限期挂起,但如果您注意到屏幕截图,有很多步骤旁边没有[ OK ]
,而且它们往往与网络有关。
有趣的是,由于我的部署失败,在这整个混乱开始之前安装在计算机 SDD 上的操作系统仍然存在。如果我在启动时跳过 PXE 启动并直接从 SDD 启动,我可以访问 Ubuntu 的救援模式。在那里我可以/etc/init.d/networking start
手动调用,然后我做获得一个功能正常的网络连接 + DNS 等等。关键是节点上的网络似乎很健康,所以如果我关于节点无法与 MAAS 通信的理论是正确的,那就意味着 MAAS 本身不具备通信能力。
我在这里陷入困境,所以任何想法都是很好的。
谢谢!
答案1
在阅读了一些 MAAS 日志并且没有发现任何特别麻烦的问题后,我决定仅重新启动两个 MAAS 控制器服务:maas-regiond
和maas-rackd
。现在一切都像以前一样顺利运行。