corosync

corosync 绑定到 127.0.0.1 而不是正确的接口
corosync

corosync 绑定到 127.0.0.1 而不是正确的接口

当我尝试使用 Hetzner 作为托管提供商实现双节点故障转移群集时遇到以下问题。 我的corosync.conf如下: # Please read the corosync.conf.5 manual page compatibility: whitetank totem { version: 2 secauth: off interface { member { memberaddr: 144.76.91.XXX } member { memberaddr: 5.9.121.XXX }...

Admin

corosync 和多个负载均衡器
corosync

corosync 和多个负载均衡器

我正在尝试使用 pacemaker/corosync 为我们的负载均衡器(可选的 nginx、pgpool 和 haproxy)提供 HA 功能。我定义了三个原语: 1 为故障转移 IP, 1 表示 lsb::nginx lsb::pgpool 为 1 并且我假设我可以添加 lsb::haproxy,尽管我还没有测试过这种情况。 并将它们组合在一起。我的问题是,例如当 pgpool 发生故障时,集群将切换到另一个节点,包括 nginx。根据我对文档的理解,故障转移 IP 只能包含在一个组中,这使得这种情况成为全有或全无的情况(要么所有服务都正常工作...

Admin

扩展现有的 Oracle Linux 集群
corosync

扩展现有的 Oracle Linux 集群

我正在寻求有关 Oracle Linux 7.9 集群的帮助,该集群目前在 VMware 虚拟机环境中运行。我们在这个集群中有两个节点,分别标记为 A 和 B。 我们的技术管理团队已决定升级这些服务器,并且他们表示希望放弃当前设置以建立新的环境。 当前集群设置包括用于集群的 corosync 和 pacemaker,以及我们用于 SMTP 服务的 opendkim 和 sendmail。 这是我的问题: 是否可以在现有集群中添加两台服务器?如果可以,这些新服务器在操作系统和应用程序版本方面是否需要与当前服务器相同?或者我们可以将服务器与较新的操作系统和更新版...

Admin

Corosync/Pacemaker/DRBD 弹性调整
corosync

Corosync/Pacemaker/DRBD 弹性调整

我有一个 DRBD 集群,其中一个节点关闭了几天。单个节点运行良好,没有出现任何问题。当我打开它时,我遇到了这样一种情况:所有资源都停止了,一个 DRBD 卷是次要的,而其他的是主要的,因为它似乎试图对刚刚打开的节点执行角色交换(ha1 处于活动状态,然后为了理解日志,我在 08:06 打开了 ha2) 我的问题: 有人能帮我弄清楚这里发生了什么吗?(​​如果这个问题太费力,我愿意考虑付费咨询以获得正确的配置)。 顺便问一下,如果情况自行解决,有没有办法让 PC 自行清理资源?如果故障转移后故障情况消除,LinuxHA 集群不需要干预,所以我要么被宠坏了,...

Admin

Pacemaker 集群无法干净地对 DRBD 资源进行故障转移(但可以手动进行)
corosync

Pacemaker 集群无法干净地对 DRBD 资源进行故障转移(但可以手动进行)

我不得不从 Ubuntu 16.04 升级一个集群。它在 18.04 和 20.04 上工作正常,但现在在 22.04 上它不会对 DRBD 设备进行故障转移。将资源置于维护模式并执行手动drbdadm secondary/primary操作可以立即生效,不会出现问题。但是,当将一个节点置于待机状态时,资源会失败并被隔离。 这发生在装有 Pacemaker 2.1.2 和 Corosync 3.1.16 的 Ubuntu 22.04.2 LTS 上。内核模块的 DRBD 版本为 8.4.11,drbd-utils 的版本为 9.15.0。DRBD 和 Cor...

Admin

将起搏器 IP 地址替换为静态 IP,然后再替换回来
corosync

将起搏器 IP 地址替换为静态 IP,然后再替换回来

希望升级 corosync/pacemaker,但问题是 corosync 版本 2 和 4 无法通信。 在 Ubuntu 20.04 上拥有 3 个节点似乎会导致短暂的脑裂,所有节点都会升级并重新启动吗,即使我小心地将它们置于待机状态并且一切都转移到 1 个主机上。 所以我在想:如果我: 将这些 IP 地址设为静态 在所有机器上进行升级 让起搏器再次接管。含义:IP 地址不再是静态的,而是虚拟/浮动的。 问题是:我似乎找不到有关此内容的文档。SEO 似乎只是将我引导至有关起搏器的一般文章。 我不知道该怎么做,也许有人知道或者可以给我指明正确的方向? 任...

Admin

3 节点 Pacemaker 设置显示 1 个节点 2 次,名称相同,一个在线,一个离线
corosync

3 节点 Pacemaker 设置显示 1 个节点 2 次,名称相同,一个在线,一个离线

所以我得到了:machine001,machine002,machine003。 machine001 有 2 个资源,machine002 有 1 个资源。通常它们不会运行在同一台主机上,除非 machine002 处于待机状态。 最近,我看到machine002出现了2次。1次在线,1次离线。 检查后sudo crm_mon -R发现它们有不同的节点 ID。 我尝试删除节点 ID,但系统拒绝了。我尝试删除节点名称,但系统提示有一个同名的活动节点。 我进去sudo crm configure edit后发现配置如下: (111) machine001 \ ...

Admin

bindnetaddr 的更详细解释?
corosync

bindnetaddr 的更详细解释?

阅读文档: 绑定网络地址 这指定了 corosync 管理器应该绑定到的网络地址。 例如,如果本地接口为 192.168.5.92,网络掩码为 255.255.255.0,则将 bindnetaddr 设置为 192.168.5.0。如果本地接口为 192.168.5.92,网络掩码为 255.255.255.192,则将 bindnetaddr 设置为 192.168.5.64,依此类推。 这也可能是 IPV6 地址,在这种情况下将使用 IPV6 网络。在这种情况下,必须指定完整地址,并且不会像 IPv4 那样自动选择特定子网内的网络接口。 ...

Admin

NFS 服务器 - Corosync、DRBD 和 Pacemaker
corosync

NFS 服务器 - Corosync、DRBD 和 Pacemaker

我有 2 个 HA NFS 服务器(带有 CoroSync、Pacemaker 和 DRBD 的 Ubuntu)。 一切都运行良好,只剩下一个小问题。 如果我终止 NFS,它会无缝地发生故障转移(太棒了!) 当被杀死的节点重新启动时,它会导致 NFS 共享断开 5-10 秒(大概是因为它重新加入集群) 有人见过这种情况吗?/有任何关于如何解决这个问题的想法,以便当它重新加入集群时体验无缝。 ...

Admin

Corosync 允许两个系统上的资源
corosync

Corosync 允许两个系统上的资源

我们正在使用 pacemaker/corosync 实现 HA。这包括虚拟 IP 和软件。前几天我们遇到了故障,corosync 显示 IPAddress 在两个节点上都已启动,在我看来,这种情况绝不应该发生。每次我将一个节点停止服务时,它都会先停止节点 A 上的 IP,然后再转到节点 B。我的问题是,这是一个错误还是配置错误?我理解我们可能希望资源在多个服务器上运行(例如 httpd),但在什么情况下您希望同一个 IP 在同一 LAN 上的多台 PC 上运行?以下是我当前正在运行的配置。 node 1: s1.site.example.org \ ...

Admin

Pacemaker-记录 ping 检查的结果?
corosync

Pacemaker-记录 ping 检查的结果?

我阅读了这一页以及下一页:https://clusterlabs.org/pacemaker/doc/deprecated/en-US/Pacemaker/1.1/html/Pacemaker_Explained/_moving_resources_due_to_connectivity_changes.html 它还解释了如何设置可以链接到资源分配的 ping。 虽然这可行,但如果我有多个 URL 或多个 ping 检查,我怎么知道哪一个失败了? 如果发生这种情况,似乎不会在任何地方记录。它只是发生了,起搏器会做出决定…… 阅读此源代码:https://g...

Admin

集群 vsftpd 服务停止工作且没有错误日志
corosync

集群 vsftpd 服务停止工作且没有错误日志

我们有一个由两个节点组成的 vsftpd 服务器的 Pacemaker 集群,采用主动/被动方案。我们遇到了以下行为。 vsftpd.log 停止记录活动而 xferlog 继续记录(传输继续发生)。vsftpd.log 不显示任何错误或警告消息。 10 到 12 小时后,服务不可用,并且没有新的连接发生 我们尝试移动资源但失败了很多次,我们需要执行多次清理才能在被动节点上正确启动服务。 corsync 配置: totem { version: 2 secauth: off cluster_name: myCluster ...

Admin

如果所有浮动 IP 资源都不可用,是否有办法让起搏器资源组进行故障转移?
corosync

如果所有浮动 IP 资源都不可用,是否有办法让起搏器资源组进行故障转移?

我希望资源组中有多个浮动 IP,只有当所有 IP 都无法工作时才会进行故障转移。每个浮动 IP 位于不同的子网中,可供我拥有的应用程序使用。如果某个浮动 IP 不可用,它将使用下一个可用的浮动 IP。 Resource Group: floating_IP floating-IP floating-IP2 floating-IP3 例如,现在如果浮动 IP 资源发生故障,整个资源组将故障转移到另一个节点。我希望只有当所有三个资源都不可用时,Pacemaker 才会故障转移资源组。 ...

Admin

由于未知主机,pcs 创建集群失败
corosync

由于未知主机,pcs 创建集群失败

我现在正在学习几个教程,它们都有这样的步骤——在 pcs 中验证给定的主机,然后创建集群。但在我的例子中,第一步(验证)有效,而第二步无效,并出现错误,指出主机未知/未验证。 sudo pcs host auth 192.168.4.201 192.168.4.202 进而 sudo pcs cluster setup my_cluster 192.168.4.201 192.168.4.202 为此,我得到了这个奇怪的错误: 警告:无法读取已知主机文件:没有此文件或目录:'/var/lib/pcsd/known-hosts' 错误:主机'192.16...

Admin

Corosync-Pacemaker 没有裂脑
corosync

Corosync-Pacemaker 没有裂脑

我正在尝试使用 CentOS 7、Corosync、Pacemaker 和 pcsd 设置一个由两个节点组成的集群。我可以手动将资源从一个节点迁移到另一个节点,但如果我关闭主节点(通过拔掉电源线),辅助节点不会成为主节点。我有 2 个网络接口。eno1 10.211.0.0/24 用于默认路由和 VRRP,eno2 10.255.255.0/30 用于 Corosync 和 Pacemaker。 以下是配置: pcs config show Cluster Name: PBX Corosync Nodes: pbx-1no pbx-2no Pacemake...

Admin