pacemaker

将 Pacemaker 集群中的资源标记为非关键资源

有没有办法在 OpenAIS/Pacemaker 集群中将资源设置为非关键资源？例如 2 节点集群 1 个资源组，包含 4 个资源 (A、B、C 和 D) 如果资源 A、B 或 C 发生故障，集群应照常重新启动/重新定位资源。如果资源 D 发生故障，集群应仅尝试重新启动它（例如，最多尝试 5 次然后停止），而不重新定位资源组。我如何将资源 D 设置为“非关键”？谢谢 ...

Admin 2024-6-2

pacemaker

corosync 绑定到 127.0.0.1 而不是正确的接口

当我尝试使用 Hetzner 作为托管提供商实现双节点故障转移群集时遇到以下问题。我的corosync.conf如下： # Please read the corosync.conf.5 manual page compatibility: whitetank totem { version: 2 secauth: off interface { member { memberaddr: 144.76.91.XXX } member { memberaddr: 5.9.121.XXX }...

Admin 2024-6-2

pacemaker

corosync 和多个负载均衡器

我正在尝试使用 pacemaker/corosync 为我们的负载均衡器（可选的 nginx、pgpool 和 haproxy）提供 HA 功能。我定义了三个原语： 1 为故障转移 IP， 1 表示 lsb::nginx lsb::pgpool 为 1 并且我假设我可以添加 lsb::haproxy，尽管我还没有测试过这种情况。并将它们组合在一起。我的问题是，例如当 pgpool 发生故障时，集群将切换到另一个节点，包括 nginx。根据我对文档的理解，故障转移 IP 只能包含在一个组中，这使得这种情况成为全有或全无的情况（要么所有服务都正常工作...

Admin 2024-6-2

pacemaker

pacemaker-停止在另一个节点上启动的资源

我在几台 ubuntu12.04 主机上安装了 pacemaker-corosync。几个克隆资源和一个原始资源。原始资源（即新启动任务）称为“dummy”。dummy 在任何给定时刻只能在一个节点上运行，约束允许它在机器之间迁移。我希望起搏器监控它可能运行的每个节点并关闭“多余”的实例 - 只保持一个运行。原始虚拟 upstart：虚拟 \ op 监控间隔="15s" \ meta 目标角色="已启动" 那么上述定义应该是怎样的呢？在 5.4 中http://clusterlabs.org/doc/en-US/Pacemaker/1.1-pc...

Admin 2024-6-2

pacemaker

升级 pacemaker corosync drbd 集群从 centos7 到 almalinux

我有一个用于在 centos7 中使用 drbd 84 和 corosync 运行的 vms 的主动被动起搏器集群。由于 centos7 即将停产，我需要将集群升级到较新的发行版。我会选择 Almalinux 8 或 9。我看到 Almalinux 存储库中的 drbd 版本 9 已在存储库中。Corosync 和 pacemaker 版本也至少比 CentOS 7 存储库中的版本高 1 个主要版本。我需要以某种方式升级集群，因为我正在运行的系统必须全天候在线。我想到的一些可能的情况是： 1.) 将 drbd 从 84 升级到 9。然后升级到最新的 ...

Admin 2024-6-2

pacemaker

当 Fencing 代理 VM 和 VM1（集群的一部分）都死亡时，HA 如何工作？

假设我有 3 台服务器- 服务器 1 -> 隔离代理 VM 和 VM1（Pacemaker 集群的一部分）服务器 2 -> VM2（Pacemaker 集群的一部分）服务器 3 -> VM3（Pacemaker 集群的一部分）假设服务器 1 因断电而死机。会发生什么情况？HA 能正常工作吗？ ...

Admin 2024-6-2

pacemaker

使用 Pacemaker 在两台虚拟机上设置虚拟 IP

我们是否需要 3 台虚拟机来设置起搏器虚拟 IP 以维持仲裁？我目前有两台运行 Postgres 双向复制的虚拟机。我想创建一个 IP 地址用于通信。如何使用 Pacemaker 进行设置。 ...

Admin 2024-6-2

pacemaker

扩展现有的 Oracle Linux 集群

我正在寻求有关 Oracle Linux 7.9 集群的帮助，该集群目前在 VMware 虚拟机环境中运行。我们在这个集群中有两个节点，分别标记为 A 和 B。我们的技术管理团队已决定升级这些服务器，并且他们表示希望放弃当前设置以建立新的环境。当前集群设置包括用于集群的 corosync 和 pacemaker，以及我们用于 SMTP 服务的 opendkim 和 sendmail。这是我的问题：是否可以在现有集群中添加两台服务器？如果可以，这些新服务器在操作系统和应用程序版本方面是否需要与当前服务器相同？或者我们可以将服务器与较新的操作系统和更新版...

Admin 2024-6-2

pacemaker

Azure Managed Lustre 或其他允许 Ubuntu VM 对云中的共享块存储执行并行读/写操作的设置？

我设置了 8TB 且最大吞吐量为 4GB/s 的 Azure Managed Lustre。跟随官方文档对于Ubuntu 20.04大小的虚拟机Standard_L8as_v3，我设法挂载文件系统。然后我使用以下命令测试我的设置：dd写入：fio dd if=/dev/zero of=<mount_directory>/testfile bs=1G count=5 oflag=dsync && sync && echo "Write Test Completed" fio --name=write_tes...

Admin 2024-6-2

pacemaker

文件系统资源失败，错误 = Pacemaker 群集上的故障转移资源期间超时

我尝试在 Pacemaker 集群上设置 NFS 主动/被动 + DRBD。当我第一次启动集群时，一切正常，但当我关闭主节点时，资源会移动到另一个节点，但文件系统资源会失败。这是我启动集群时的资源状态。在此处输入图片描述下一次捕获对应于资源在关闭或重新启动主节点后尝试故障转移时的集群状态在此处输入图片描述你可以看到我的资源配置在此处输入图片描述约束在此处输入图片描述有人可以帮帮我吗 ...

Admin 2024-6-2

pacemaker

根据 Kubernetes pod 调度 PaceMaker 资源

我想要在所有运行有特定 Kubernetes pod 实例的集群节点上安排 PaceMaker 克隆资源。背景：我想运行一个 Kubernetes 集群，该集群有多个入口代理在特定节点上作为 DaemonSet 运行。我正在使用 PaceMaker 在这些节点之间分配公共 IP 地址，并且我想让 PaceMaker 将地址移动到另一个节点，当入口代理在节点上停止时，该节点处于“活动”状态。我想到最好的方法是查看正在运行的 pod，并根据状态在 PaceMaker 中设置一个节点属性，使其安排代理正在运行的节点上的所有 IP 地址。这是实现这一目标的最佳...

Admin 2024-6-2

pacemaker

Debian 升级后，Pacemaker 无法再启动 Nginx

我有一个 Pacemaker 集群，它控制多个类型的资源ocf:heartbeat:IPaddr2和一个类型的资源ocf:heartbeat:nginx。自从升级到 Debian 12 以来，它无法再启动 Nginx。发生的情况是，Pacemaker 尝试在一侧启动 Nginx，40 秒后放弃，然后在另一侧尝试，40 秒后再次放弃。在两个 40 秒间隔内，Nginx 似乎工作正常。经过这些尝试后，Nginx 资源保持停止状态，错误消息显示“无法执行 nginx start on ... (超时：资源代理未在 40 秒内完成)”。我查看了各种日志文件，但还是...

Admin 2024-6-2

pacemaker

Pacemaker 克隆资源粘性

我已经设置了一个由三个节点组成的小型集群。我创建了一个 IPaddr2（或来自 Percona 的 IPaddr3）VIP，一切正常。最初，我有以下分布： Full List of Resources: * Clone Set: ClusterIP-clone [ClusterIP] (unique): * ClusterIP:0 (ocf::percona:IPaddr3): Started node1 * ClusterIP:1 (ocf::percona:IPaddr3): Started node2 ...

Admin 2024-6-2

pacemaker

起搏器问题--stonith

TL;DR：我需要帮助在我的起搏器集群上设置隔离。我有一组由三台机器组成的集群，它们运行着 Pacemaker。这台机器在我的家庭实验室中，不是工作环境。两台是戴尔物理服务器。一台 R720xd 和一台 R710。第三台是在 libvirtd/qemu 下运行在米色盒子上的虚拟机。物理服务器和虚拟机都是 Ubuntu Server 22.04。这三台机器也是 innodb 集群的成员。虚拟机会不断重新启动，导致 mysql 数据库损坏，而 innodb 集群无法处理。有三个 Pacemaker 资源——一个用于 haproxy 的 VIP、一个用于 ...

Admin 2024-6-2

pacemaker

缺少起搏器代理 nvmet 子系统

我尝试按照 drbd 操作指南“RHEL 9 上的高可用性 NVMe Over Fabrics (NVMe-oF)”进行操作，但遇到了错误 `Error: Unable to find agent 'nvmet-subsystem', try specifying its full name` `Error: Errors have occurred, therefore pcs is unable to continue` 它发生在以下命令中： pcs -f nvmet_config resource create p_nvme-subsystem_0 ...

Admin 2024-6-2