linux-ha

心跳肉机 STONITH 出现内核崩溃

我有一个双节点集群，其中 heartbeat 和 DRBD 管理 mysql 资源。如果我停止主节点、重新启动它或断开网络连接，故障转移就会很好地工作。但是，如果主服务器出现内核崩溃（通过运行模拟echo c > /proc/sysrq-trigger），辅助服务器将不会接管资源。辅助服务器上的心跳日志如下所示： Jul 11 21:33:32 rad11 heartbeat: [7519]: WARN: node rad10: is dead Jul 11 21:33:32 rad11 heartbeat: [7519]: info: Li...

Admin 2024-6-2

linux-ha

Linux HA 心跳虚拟 IP 切换并绑定域名

我在两台服务器上设置了心跳，如下所示：掌握：10.15.1.50 备份：10.15.1.51 （虚拟 IP：10.15.1.52）因此，主服务器始终也拥有 10.15.1.52，但如果主服务器发生故障，备份服务器将接管 10.15.1.52。这非常完美，可在 10 秒内完成故障转移。我们有一个链接到 10.15.1.52 的域名，因此当服务器发生故障转移时，它是透明的。我们注意到，尽管 IP 切换时间不到 10 秒，但可能需要 10-20 分钟才能通过域名实际访问服务器。由于 10.15.1.52 是私有 IP，因此我们确实有一个转发端口 8...

Admin 2024-6-2

linux-ha

heartbeat v3 可以在没有起搏器的情况下监测服务/资源状态吗？

我正在尝试基于 CentOS 设置 HA 系统，我想使用 heartbeat v3 来实现“心跳”机制，启动/停止资源，看起来 heartbeat 可以做到。但是关于资源状态，heartbeat 无法监控，例如 httpd，我们手动停止它，但它无法重新启动或切换到另一个节点。 heartbeat v3 能实现吗？ ...

Admin 2024-6-2

linux-ha

起搏器 IP 和 MAC 故障转移

我正在设置一个具有两个冗余服务器的系统，其中一个是活动服务器。如果活动服务器发生故障或无法访问，则另一个服务器必须变为活动服务器。所有服务都已准备就绪，因此唯一需要的操作是 IP 故障转移。我尝试设置基本的起搏器集群，如下所述 https://clusterlabs.org/pacemaker/doc/en-US/Pacemaker/1.1/html/Clusters_from_Scratch/_add_a_resource.html 我已经创建了以下资源： pcs resource create ClusterIP ocf:heartbeat:I...

Admin 2024-6-1

linux-ha

起搏器位置对资源的限制显然没有得到遵守

我有一个带有两个 STONITH 资源的 Pacemaker 设置。它们具有crm configure show以下列出的位置约束： location loc_stonith_node1 stonith_node1 rule -inf: #id eq node1 location loc_stonith_node2 stonith_node2 rule -inf: #id eq node2 然而，crm status表示两种资源都已启动node2： stonith_node1 (stonith:external/ipmi): Started...

Admin 2024-5-31

linux-ha

如何使 DRBD 节点脱离连接状态 StandAlone（和 WFConnection）？

我的 Debian 8.9 DRBD 8.4.3 设置不知何故进入了两个节点无法再通过网络连接的状态。它们应该复制单个资源r1，但紧接着drbdadm down r1; drbadm up r1两个节点上的/proc/drbd情况如下：在第一个节点上（连接状态为或WFConnection）StandAlone： 1: cs:WFConnection ro:Primary/Unknown ds:UpToDate/DUnknown C r----- ns:0 nr:0 dw:0 dr:912 al:0 bm:0 lo:0 pe:0 ua:0 ap:...

Admin 2024-5-31

linux-ha

正确使用 Pacemaker 的 ocf-tester 与 OCF 资源代理

我已经设置了 DRBD、Corosync 和 Pacemaker，其中 Pacemaker 应根据节点的可用性，在不同集群节点上的 DRBD 块设备上安装文件系统。该设置尚未完全运行，因此我尝试使用测试 Pacemaker 的 DRBD 资源ocf::linbit:drbd代理ocf-tester。如果我尝试这样做（drbd_res是 Pacemaker 中 DRBD 资源的名称；r1是中的资源名称/etc/drbd.conf） sudo ocf-tester -n drbd_res -o drbd_resource="r1"\ /usr/...

Admin 2024-5-31

linux-ha

corosync 1.4 是否支持公共 IP？

我正在创建一个基于云的集群，因此现在使用单播连接到其他 pacemaker/corosync 节点。我能够使用私有 IP 创建集群。要创建跨区域集群，我想使用公共 IP。我尝试使用通用配置，为 memberaddr 提供公共 IP，为 bindnetaddr 提供节点的公共 IP。类似这样的配置 interface { member { memberaddr: <public ip 1> } member { membe...

Admin 2024-5-31

linux-ha

crm 状态：已配置 0 个节点和 0 个资源

我已经配置了 corosync，然后我得到了这些问题 0 个节点和 0 个资源配置。 [root@sitampan2 verdana]# crm status Stack: unknown Current DC: NONE Last updated: Thu Jun 16 15:15:40 2016 Last change: Wed Jun 15 14:25:43 2016 by root via cibadmin on sitampan2 0 nodes and 0 resources configured: 160547800 re...

Admin 2024-5-30

linux-ha

当您已经拥有冗余通信链路时为什么还要使用隔离？

本文你应该同时使用隔离（又名 STONITH）和冗余通信链路。我试图了解 STONITH 在裂脑情况下有什么好处。例如，假设你有节点 A、节点 B、STONITH 设备，它们使用交换机 I 连接。如果交换机 I 死机 - 网络被分区 - 并且节点 A 无法向 STONITH 设备发送请求，那么它就毫无用处了。好的，我们可能有专用的交换机 II，用于将节点与 STONITH 设备连接起来。如果交换机 I 发生故障，我们仍然可以向 STONITH 设备发送信号，它可能会关闭节点 B。但问题是，为什么不直接使用交换机 II 作为节点 A 和节点 B 之间的...

Admin 2024-5-29

linux-ha

corosync 中的多播地址使用

我想知道 corosync 消息传递软件中多播地址的用途：由于我们必须将每个网络接口与一个 IP 地址和一个特定端口绑定，并且每个环都通过这些 IP 进行通信，所以我不明白为什么我们还必须使用多播地址。有人可以启发我吗？谢谢！ [编辑] 好的，但是当我注释多播地址时，corosync 无法启动： [MAIN ] parse error in config: No multicast address specified 这是我的配置文件，我使用指南 Cluster from Scratch 来配置解决方案，大多数设置都是默认设置。 t...

Admin 2024-5-29

linux-ha

应选择哪种技术进行手动控制的 IP 故障转移

我有以下设置，Linux 堆栈，前端运行 nginx 代理和静态资产，后端在主-主复制中运行 Ruby on Rails 和 MySQL：主要站点：front-end.a，back-end.a 辅助站点：front-end.b，back-end.b 位于共享网络上的路由器可以路由到主站点和辅助站点主站点在大多数时间处理请求。辅助站点是冗余的。back-end.b处于主-主复制状态，back-end.a但为只读状态。当主站点发生故障时，请求需要重定向到辅助站点。这将显示服务不可用的 503 页面，直到手动干预确保主站点不会恢复，并按下大开关使辅...

Admin 2024-5-29

linux-ha

您能给我关于使用 linux-ha 和 pacemaker 的 HA 架构的反馈吗？

我正在尝试提出一种架构来实现我们其中一项服务的 HA（内部服务，所有请求的单个 tcp 连接）。刚开始阅读有关 linux-ha 和 pacemaker 的内容，我想知道以下方法是否有意义：我们有两个节点提供单一服务，完全相同，比如 A 和 B。我想给每个节点赋予它自己的虚拟 IP 地址，所以说 VA->A，VB->B（表示虚拟地址 A 指向 A，等等）。这样，我们在 A 或 B 上使用服务的服务器（Cn）将明确配置为 VA 或 VB，并且永远不会改变。现在，如果 A 失败，我希望 VA 指向 B，现在有 VA->B 和 V...

Admin 2024-5-29

最新的 Centos 6 中未找到 crm 命令（pacemaker 集群管理）

linux-ha

Linux-HA Pacemaker.. NFS 资源启动“不受管理”

我一直在处理的集群突然开始出现故障...看起来我遇到了 exportfs 资源的问题。有什么方法可以解决这个问题吗？我找不到“-2”返回代码 ============ Last updated: Mon Jan 7 09:18:18 2013 Last change: Fri Jan 4 16:02:13 2013 via crmd on emserver1 Stack: openais Current DC: emserver1 - partition with quorum Version: 1.1.6-9971ebba4494012a93c0...

Admin 2024-5-29