linux-ha

心跳肉机 STONITH 出现内核崩溃
linux-ha

心跳肉机 STONITH 出现内核崩溃

我有一个双节点集群,其中 heartbeat 和 DRBD 管理 mysql 资源。如果我停止主节点、重新启动它或断开网络连接,故障转移就会很好地工作。 但是,如果主服务器出现内核崩溃(通过运行模拟echo c > /proc/sysrq-trigger),辅助服务器将不会接管资源。 辅助服务器上的心跳日志如下所示: Jul 11 21:33:32 rad11 heartbeat: [7519]: WARN: node rad10: is dead Jul 11 21:33:32 rad11 heartbeat: [7519]: info: Li...

Admin

Linux HA 心跳虚拟 IP 切换并绑定域名
linux-ha

Linux HA 心跳虚拟 IP 切换并绑定域名

我在两台服务器上设置了心跳,如下所示: 掌握:10.15.1.50 备份:10.15.1.51 (虚拟 IP:10.15.1.52) 因此,主服务器始终也拥有 10.15.1.52,但如果主服务器发生故障,备份服务器将接管 10.15.1.52。这非常完美,可在 10 秒内完成故障转移。我们有一个链接到 10.15.1.52 的域名,因此当服务器发生故障转移时,它是透明的。我们注意到,尽管 IP 切换时间不到 10 秒,但可能需要 10-20 分钟才能通过域名实际访问服务器。 由于 10.15.1.52 是私有 IP,因此我们确实有一个转发端口 8...

Admin

heartbeat v3 可以在没有起搏器的情况下监测服务/资源状态吗?
linux-ha

heartbeat v3 可以在没有起搏器的情况下监测服务/资源状态吗?

我正在尝试基于 CentOS 设置 HA 系统,我想使用 heartbeat v3 来实现“心跳”机制,启动/停止资源,看起来 heartbeat 可以做到。 但是关于资源状态,heartbeat 无法监控,例如 httpd,我们手动停止它,但它无法重新启动或切换到另一个节点。 heartbeat v3 能实现吗? ...

Admin

起搏器 IP 和 MAC 故障转移
linux-ha

起搏器 IP 和 MAC 故障转移

我正在设置一个具有两个冗余服务器的系统,其中一个是活动服务器。如果活动服务器发生故障或无法访问,则另一个服务器必须变为活动服务器。所有服务都已准备就绪,因此唯一需要的操作是 IP 故障转移。 我尝试设置基本的起搏器集群,如下所述 https://clusterlabs.org/pacemaker/doc/en-US/Pacemaker/1.1/html/Clusters_from_Scratch/_add_a_resource.html 我已经创建了以下资源: pcs resource create ClusterIP ocf:heartbeat:I...

Admin

起搏器位置对资源的限制显然没有得到遵守
linux-ha

起搏器位置对资源的限制显然没有得到遵守

我有一个带有两个 STONITH 资源的 Pacemaker 设置。它们具有crm configure show以下列出的位置约束: location loc_stonith_node1 stonith_node1 rule -inf: #id eq node1 location loc_stonith_node2 stonith_node2 rule -inf: #id eq node2 然而,crm status表示两种资源都已启动node2: stonith_node1 (stonith:external/ipmi): Started...

Admin

如何使 DRBD 节点脱离连接状态 StandAlone(和 WFConnection)?
linux-ha

如何使 DRBD 节点脱离连接状态 StandAlone(和 WFConnection)?

我的 Debian 8.9 DRBD 8.4.3 设置不知何故进入了两个节点无法再通过网络连接的状态。它们应该复制单个资源r1,但紧接着drbdadm down r1; drbadm up r1两个节点上的/proc/drbd情况如下: 在第一个节点上(连接状态为 或WFConnection)StandAlone: 1: cs:WFConnection ro:Primary/Unknown ds:UpToDate/DUnknown C r----- ns:0 nr:0 dw:0 dr:912 al:0 bm:0 lo:0 pe:0 ua:0 ap:...

Admin

正确使用 Pacemaker 的 ocf-tester 与 OCF 资源代理
linux-ha

正确使用 Pacemaker 的 ocf-tester 与 OCF 资源代理

我已经设置了 DRBD、Corosync 和 Pacemaker,其中 Pacemaker 应根据节点的可用性,在不同集群节点上的 DRBD 块设备上安装文件系统。该设置尚未完全运行,因此我尝试使用 测试 Pacemaker 的 DRBD 资源ocf::linbit:drbd代理ocf-tester。 如果我尝试这样做(drbd_res是 Pacemaker 中 DRBD 资源的名称;r1是 中的资源名称/etc/drbd.conf) sudo ocf-tester -n drbd_res -o drbd_resource="r1"\ /usr/...

Admin

corosync 1.4 是否支持公共 IP?
linux-ha

corosync 1.4 是否支持公共 IP?

我正在创建一个基于云的集群,因此现在使用单播连接到其他 pacemaker/corosync 节点。我能够使用私有 IP 创建集群。要创建跨区域集群,我想使用公共 IP。我尝试使用通用配置,为 memberaddr 提供公共 IP,为 bindnetaddr 提供节点的公共 IP。类似这样的配置 interface { member { memberaddr: <public ip 1> } member { membe...

Admin

crm 状态:已配置 0 个节点和 0 个资源
linux-ha

crm 状态:已配置 0 个节点和 0 个资源

我已经配置了 corosync,然后我得到了这些问题 0 个节点和 0 个资源配置。 [root@sitampan2 verdana]# crm status Stack: unknown Current DC: NONE Last updated: Thu Jun 16 15:15:40 2016 Last change: Wed Jun 15 14:25:43 2016 by root via cibadmin on sitampan2 0 nodes and 0 resources configured: 160547800 re...

Admin

当您已经拥有冗余通信链路时为什么还要使用隔离?
linux-ha

当您已经拥有冗余通信链路时为什么还要使用隔离?

本文你应该同时使用隔离(又名 STONITH)和冗余通信链路。我试图了解 STONITH 在裂脑情况下有什么好处。例如,假设你有节点 A、节点 B、STONITH 设备,它们使用交换机 I 连接。如果交换机 I 死机 - 网络被分区 - 并且节点 A 无法向 STONITH 设备发送请求,那么它就毫无用处了。 好的,我们可能有专用的交换机 II,用于将节点与 STONITH 设备连接起来。如果交换机 I 发生故障,我们仍然可以向 STONITH 设备发送信号,它可能会关闭节点 B。 但问题是,为什么不直接使用交换机 II 作为节点 A 和节点 B 之间的...

Admin

corosync 中的多播地址使用
linux-ha

corosync 中的多播地址使用

我想知道 corosync 消息传递软件中多播地址的用途: 由于我们必须将每个网络接口与一个 IP 地址和一个特定端口绑定,并且每个环都通过这些 IP 进行通信,所以我不明白为什么我们还必须使用多播地址。 有人可以启发我吗? 谢谢 ! [编辑] 好的,但是当我注释多播地址时,corosync 无法启动: [MAIN ] parse error in config: No multicast address specified 这是我的配置文件,我使用指南 Cluster from Scratch 来配置解决方案,大多数设置都是默认设置。 t...

Admin

应选择哪种技术进行手动控制的 IP 故障转移
linux-ha

应选择哪种技术进行手动控制的 IP 故障转移

我有以下设置,Linux 堆栈,前端运行 nginx 代理和静态资产,后端在主-主复制中运行 Ruby on Rails 和 MySQL: 主要站点:front-end.a,back-end.a 辅助站点:front-end.b,back-end.b 位于共享网络上的路由器可以路由到主站点和辅助站点 主站点在大多数时间处理请求。辅助站点是冗余的。back-end.b处于主-主复制状态,back-end.a但为只读状态。 当主站点发生故障时,请求需要重定向到辅助站点。这将显示服务不可用的 503 页面,直到手动干预确保主站点不会恢复,并按下大开关使辅...

Admin

您能给我关于使用 linux-ha 和 pacemaker 的 HA 架构的反馈吗?
linux-ha

您能给我关于使用 linux-ha 和 pacemaker 的 HA 架构的反馈吗?

我正在尝试提出一种架构来实现我们其中一项服务的 HA(内部服务,所有请求的单个 tcp 连接)。刚开始阅读有关 linux-ha 和 pacemaker 的内容,我想知道以下方法是否有意义: 我们有两个节点提供单一服务,完​​全相同,比如 A 和 B。 我想给每个节点赋予它自己的虚拟 IP 地址,所以说 VA->A,VB->B(表示虚拟地址 A 指向 A,等等)。 这样,我们在 A 或 B 上使用服务的服务器(Cn)将明确配置为 VA 或 VB,并且永远不会改变。 现在,如果 A 失败,我希望 VA 指向 B,现在有 VA->B 和 V...

Admin

最新的 Centos 6 中未找到 crm 命令(pacemaker 集群管理)
linux-ha

最新的 Centos 6 中未找到 crm 命令(pacemaker 集群管理)

我之前做过这样的设置,没有任何问题。现在我无法执行“crm configure”,因为当前包中没有可用的 crm 命令。 我是不是漏掉了什么?也许可以用其他方式/命令代替? [root@node1 src]# find / -name crm*|grep bin /usr/sbin/crm_mon /usr/sbin/crmadmin /usr/sbin/crm_error /usr/sbin/crm_shadow /usr/sbin/crm_ticket /usr/sbin/crm_failcount /usr/sbin/crm_resource /u...

Admin

Linux-HA Pacemaker.. NFS 资源启动“不受管理”
linux-ha

Linux-HA Pacemaker.. NFS 资源启动“不受管理”

我一直在处理的集群突然开始出现故障...看起来我遇到了 exportfs 资源的问题。 有什么方法可以解决这个问题吗?我找不到“-2”返回代码 ============ Last updated: Mon Jan 7 09:18:18 2013 Last change: Fri Jan 4 16:02:13 2013 via crmd on emserver1 Stack: openais Current DC: emserver1 - partition with quorum Version: 1.1.6-9971ebba4494012a93c0...

Admin