使用 Heartbeat 和 Pacemaker 监控 Varnish

Question

您的集群架构让我感到困惑，因为看起来您正在同时在两个节点上独立运行应该由集群管理的服务（如 Varnish），并让集群资源管理器（CRM）只需调整 IP 地址即可。

您希望通过集群设置实现什么目标？容错？负载平衡？两者兼而有之？请注意，我指的是集群资源（Varnish、IP 地址等），而不是 Varnish 分配负载的后端服务器。

在我看来，您需要一个主动-被动双节点集群，它提供容错能力。一个节点是主动的，运行 Varnish、虚拟 IP 地址和可能的其他资源，另一个节点是被动的，不执行任何操作，直到集群资源管理器将资源移至被动节点，此时它变为主动的。这是一种久经考验的架构，历史悠久。但要使其发挥作用，您需要让 CRM 完全控制资源。我建议遵循从头开始构建集群并以此为基础对你的集群进行建模。

编辑在您更新问题之后：您的 CIB 看起来不错，并且一旦您修补了 Varnish 初始化脚本，以便重复调用“start”返回 0，您应该能够添加以下原语（根据您的喜好调整超时和间隔）：

primitive p_varnish lsb:varnish \
    op monitor interval="10s" timeout="15s" \
    op start interval="0" timeout="10s" \
    op stop interval="0" timeout="10s"

不要忘记将其添加到平衡器组（列表中的最后一个元素）：

group balancer eth0_gateway eth1_iceman_slider eth1_iceman_slider_ts \
    eth1_iceman_slider_pm eth1_iceman_slider_jy eth1_iceman eth1_slider \
    eth1_viper eth1_jester p_varnish

编辑2：要降低迁移阈值，请在 CIB 末尾添加资源默认部分，并将属性设置migration-threshold为较小的数字。将其设置为 1 表示资源将在一次故障后迁移。设置资源粘性也是一个好主意，这样由于节点故障（重新启动或关闭）而迁移的资源不会在节点再次可用时自动迁移回来。

rsc_defaults $id="rsc-options" \
    resource-stickiness="100" \
    migration-threshold="1"

Answer 1