keepalived 未检测到虚拟 IP 丢失

keepalived 未检测到虚拟 IP 丢失

我正在使用 keepalived 在两个虚拟机之间切换浮动 IP。

/etc/keepalived/keepalived.conf在虚拟机 1 上:

vrrp_instance VI_1 {
    state MASTER
    interface ens160
    virtual_router_id 101
    priority 150
    advert_int 1
    authentication {
        auth_type PASS
        auth_pass secret
    }
    virtual_ipaddress {
        1.2.3.4
    }
}

/etc/keepalived/keepalived.conf在虚拟机 2 上:

vrrp_instance VI_1 {
    state MASTER
    interface ens160
    virtual_router_id 101
    priority 100
    advert_int 1
    authentication {
        auth_type PASS
        auth_pass secret
    }
    virtual_ipaddress {
        1.2.3.4
    }
}

这基本上可以正常工作,但有一个例外:每次 systemd 更新时(它运行的是 Ubuntu 18.04),它都会重新加载其网络组件,导致浮动 IP 被丢弃,因为它未在系统中配置。由于两个 keepalived 实例仍然可以互相 ping,因此它们都没有发现任何错误,也没有对此做出反应,导致浮动 IP 保持关闭状态。

我发现你可以用这样的简单脚本来检查 IP:

vrrp_script chk_proxyip {
    script "/sbin/ip addr |/bin/grep 1.2.3.4"
}

vrrp_instance VI_1 {
    # [...]
    track_script {
        chk_proxyip
    }
}

但我不确定这是否是一种有效的方法。

如果我理解正确的话,如果我在 VM1 上配置此脚本,将会发生以下情况:

  1. VM1 因 systemd 重启而丢失 IP
  2. VM1 上的 keepalived 检测到 IP 丢失
  3. keepalived 切换FAULT状态并停止广播 vrrp 包
  4. VM2 上的 keepalived 检测到 VM1 上的 keepalived 丢失,并将浮动 IP 设置为

此时,IP 在 VM2 上再次可用,但 VM1 将保持此状态,因为该 IP 永远不会在 VM1 上再次出现。如果 VM2 发生故障(无论出于何种原因),VM1 不会接管它,因为它仍处于此FAULT状态。

如何确保浮动 IP 在其中一个虚拟机上始终处于运行状态?

进一步测试:

我尝试 ping 浮动 IP,而不是在 check_script 中检查它在特定主机上是否处于活动状态:

vrrp_script chk_proxyip {
    script "/bin/ping -c 1 -w 1 1.2.3.4"
    interval 2
}

在节点 2 上配置此脚本的结果如下:

  1. 删除节点 1 上的 IP 以进行测试
  2. 节点 2 检测到 IP 丢失,并从更改BACKUPFAULT
  3. 节点 1 忽略了状态变化并保持MASTER

结果是:IP 保持关闭状态。

在节点 1 上配置脚本的结果如下:

  1. 删除了节点 1 上的 IP
  2. 节点 1 检测到 IP 丢失,并从更改MASTERFAULT
  3. 节点2检测到节点1上的状态变化,由 变为BACKUPMASTER在节点2上配置浮动IP

嗯,然后……

Feb 13 10:11:26 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Transition to MASTER STATE
Feb 13 10:11:27 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Entering MASTER STATE
Feb 13 10:11:29 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Received advert with higher priority 150, ours 100
Feb 13 10:11:29 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Entering BACKUP STATE
Feb 13 10:11:32 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Transition to MASTER STATE
Feb 13 10:11:33 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Entering MASTER STATE
Feb 13 10:11:36 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Received advert with higher priority 150, ours 100
Feb 13 10:11:36 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Entering BACKUP STATE
Feb 13 10:11:38 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Transition to MASTER STATE
Feb 13 10:11:39 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Entering MASTER STATE
Feb 13 10:11:41 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Received advert with higher priority 150, ours 100
Feb 13 10:11:41 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Entering BACKUP STATE
Feb 13 10:11:44 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Transition to MASTER STATE
Feb 13 10:11:45 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Entering MASTER STATE
Feb 13 10:11:47 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Received advert with higher priority 150, ours 100
...

我必须在节点 1 上重新启动 keepalived 以停止节点之间的乒乓球游戏。

答案1

我们遇到了这个问题,并确定这是 ubuntu 18.04 中现在使用 netplan 的 systemd-networkd 的问题。较新版本的 keepalived 应该可以修复此问题,因为它可以检测到导致故障转移的浮动 IP 的删除,请参阅https://github.com/acassen/keepalived/issues/836

18.04 中没有提供较新版本的 keepalived,因此我们决定继续使用 ubuntu 16.04,并等到 ubuntu 20.04 为使用 keepalived 的服务器提供服务,而不是尝试进行反向移植。

答案2

该问题已于 2018-05-26 版 keepalived 2.0.0 中修复,请参阅keepalived 的更新日志

  • 监控 VIP/eVIP 的删除情况,如果 VIP/eVIP 被删除则转换到备份,除非它配置了无轨道选项。

答案3

我认为你可以对浮动 IP 进行 ping 检查,然后当它失败时重新启动所有节点上的 keepalived 服务

你的 IP 将会回来

将其放入每分钟或每 5 分钟运行一次的 cronjob 中

答案4

作为一种解决方法,我将浮动 IP 配置为主节点上的附加 IP(具有更高的优先级)

/etc/netplan/01-netcfg.yaml

network:
  version: 2
  renderer: networkd
  ethernets:
    ens160:
      addresses: [ 1.2.3.5/24, 1.2.3.4/24 ]
      gateway4: 1.2.3.254
      nameservers:
          search: [ example.com ]
          addresses:
              - "1.2.3.40"

这样,在启动或 systemd 重新配置时,浮动 IP 位于主节点上。如果主节点发生故障,则由辅助节点通过 keepalived 接管。如果主节点恢复,则辅助节点上的 keepalived 将释放该 IP。

这实际上不是一个解决方案,但目前我没有看到更好的解决方案。


更新

虽然这个解决方法有点用,但它有一些副作用。重启后,浮动 IP 地址在接口上出现了两次:

2: ens160: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc fq_codel state UP group default qlen 1000
    link/ether 00:50:56:a3:d7:d1 brd ff:ff:ff:ff:ff:ff
    inet 1.2.3.5/24 brd 1.2.3.255 scope global ens160
       valid_lft forever preferred_lft forever
    inet 1.2.3.4/32 scope global ens160
       valid_lft forever preferred_lft forever
    inet 1.2.3.4/24 brd 1.2.3.255 scope global secondary ens160
       valid_lft forever preferred_lft forever

这似乎没有影响任何东西,它有效,但它困扰着我。最后我mp3foley 的答案并使用 Ubuntu 16.04 重新安装了虚拟机。

相关内容