集群套件 rhel

集群套件 rhel

我们已经设置了带有 san 盒的 2 节点集群,我们的配置类似于 HS22 IBM 刀片中心,带有 T3400 SAN 盒和 SAN 交换机,我已尝试使用 RHEL 5.2 RHEL 5.3 RHEL 5.4 集群套件,我也可以使用 luci 重新启动,我可以隔离两个服务器,甚至可以将服务从第一个节点重新定位到第二个节点

问题是,如果在节点 1 clustat 上 ckcek,它会向我显示所有服务和集群所有者是节点 1,如果我停止节点 1 上的服务网络,它会将所有服务重新定位到节点 2,并且节点 1 将断电。当我重新启动节点 1 时,它将加入集群,那时节点 2 是所有服务的所有者,也是集群,如果我停止节点 2 上的服务不起作用,它不会将集群重新定位到节点 1,在我的 /var/log 上我可以看到 52 无法更改 RG 状态,是否有人遇到过这样的问题,如果是,那么解决方法是什么

非常感谢你们,我已经让它工作了!!!

答案1

我没有直接使用 RH 集群的经验,但从您的描述来看,听起来节点 1 在重新启动后没有正确地重新加入集群。

作为起点,我会检查所有适当的服务是否设置为在节点 1 上自动启动,但在执行此操作之前,我会清理您的问题,因为它目前的形式几乎无法读取。

似乎有一个与此相关的错误(有点)在RedHat 的 Bugzilla, 也。

答案2

我敢打赌,我肯定会收到一些反对票,但我对 RHCS 的经验是它基本上根本不起作用。我试了又试,想让一个简单的 3 节点集群与 ricci 和 luci 一起工作,但最终还是放弃了。我的搜索结果显示,我也有类似的经历,而且 RHCS 还没有准备好在生产中部署。我有时能够将几台服务器加入集群,但当我尝试加入另一个节点时,它就会失败,日志中的信息非常少。

我最终走向起搏器支持DRBD文件系统,发现它更灵活,而且很好用。我的建议是使用 Pacemaker。

答案3

如果网络服务中断,集群节点将进入“未知”状态。CS 不知道主机是否真的死机,或暂时无响应。如果您有一个隔离机制,您可以隔离主机,这也会通知 RHCS 该节点确实已关闭,因此可以将服务转移到另一个节点。如果服务只是在其他地方重新启动,并且主机恢复了网络,则您将在两个节点上运行相同的服务,访问 SAN 上的相同文件,从而损坏它们。

相关内容