Maas 会调试机器,但不让我开机

Maas 会调试机器,但不让我开机

我有一个现存的 maas/juju 系统,我可以用脚本从头开始构建,并且相当经常地这样做,这些是 Dell C6015 系统。我刚刚又买了 6 台机器 - HP DL580 G7s。我从头开始重建了集群,MAAS 看到了新机器,并且可以调试它们。它们显示了正确的核心数、内存和磁盘数,并显示“就绪”。原始的 Dell 系统上线并运行良好,并分配给 juju 并由 juju 进行配置。

我尝试在 juju 中分配它们,MAAS 启动它们、分配它们、将它们标记为部署,然后进行部署,但在 juju 中它们从未显示为待处理以外的状态。

我在 juju 中移除了它们,但它们没有被释放,所以我在 MAAS 中强制释放它们。我尝试调试它们的钩子,看看发生了什么,我尝试在 juju 中重新分配它们,甚至使用 add-machine 和 add unit --to,但它们再也没有被分配。我能够从 MAAS 打开和关闭它们一段时间(这停止了)。我仍然可以分配、部署和释放它们,让 MAAS 再次调试它们并检查它们的电源状态。

MAAS 不会让我打开它们。MAAS 会让我重新启用它们,它会循环运行,打开它们,运行脚本并关闭它们,次数不限。我可以通过 MAAS 获取、部署和发布它们。

但是当我选择打开一个或多个节点时,MAAS 显示“1 个节点无法启动。要继续,请更新您的选择。”

我可以使用 iLO (IPMI) 网络界面启动它们,启动后,我可以使用 MAAS 关闭它们。但是,通过 maas 启动它们或使用 juju 为它们安装服务并没有什么乐趣。

有谁知道问题可能出在哪里,我可以做什么来调试问题,或者想让我添加来自 MAAS 或 juju 的日志信息?非常感谢大家的帮助。

如果我能让它们运行起来,我就能手动运行 juju 服务脚本,这样我就可以使用核心了。但没有电源循环,就没意思了。

2015.12.18 Edit -----------------------

我目前的解决方法是手动部署它们:

在马斯,

select the systems in question, select "Take Action"/“Acquire” and “Go”
select the systems in question, "Take Action"/“Deploy” and “Go” 

在 maas-server 上

juju add-machine ssh:<mass user name>@<ipaddress>

一旦返回“创建了机器 n”

juju add-unit <service> –to n

此时,它们启动、按要求部署服务并正常工作。

这不是我的最终目标,因为虽然我可以在圣诞假期关闭系统,但我必须使用 iLO 网站将它们打开。

2015.12.18 Edit number 2-----------------------

好的。困惑了。

在从 MAAS 多次调试(以及实际启动和调试)后,它们没有响应手动 MAAS 开机命令。

在获取、部署、配置并运行几天后,它们现在在 MAAS 中根据手动命令关闭和打开电源。

有人知道如何标记吗?我认为没有答案,但它有效。

我没有对这份礼物吹毛求疵,但我仍然感到困惑。

答案1

就我个人而言,我猜测这主要是 HP 的问题,因为戴尔的产品运行良好。

我建议先看看你的硬件是否有固件更新。HP 的 iLO IPMI 实现中往往存在很多错误,尽管它们的电源接口通常看起来很可靠。

其次,日志

/var/log/maas

其中有大量可供调试的信息。

最后,您可以手动尝试其中的一些操作。Maas 使用 ipmi_chassis_config 工具来启动机器。您可以尝试直接从您的机器上执行该操作。文档可在手册页或此处找到:

http://linux.die.net/man/8/ipmi-chassis-config

请参阅 /etc/maas/templates/power/ 了解这方面的一些选项。另外,请检查您机器上的 ipmi 工具版本并查找相关错误报告。

答案2

我一直遇到 HP 无法部署的其他问题。我能想到的可能对您有帮助的事情之一是 ilo4 的固件无法与最新版本(我认为是 2.30)配合使用。如果您将其版本恢复到 2.22,它可能会解决您的问题。

答案3

这听起来像是 MAAS 中的一个错误,或者是 MAAS 的 iLO 驱动程序中的一个错误。事实上,这是新型号机器特有的,这表明这不是 Juju 的问题。

您使用的是哪个版本的 MAAS?

相关内容