我正在使用 keepalived 在两个虚拟机之间切换浮动 IP。
/etc/keepalived/keepalived.conf
在虚拟机 1 上:
vrrp_instance VI_1 {
state MASTER
interface ens160
virtual_router_id 101
priority 150
advert_int 1
authentication {
auth_type PASS
auth_pass secret
}
virtual_ipaddress {
1.2.3.4
}
}
/etc/keepalived/keepalived.conf
在虚拟机 2 上:
vrrp_instance VI_1 {
state MASTER
interface ens160
virtual_router_id 101
priority 100
advert_int 1
authentication {
auth_type PASS
auth_pass secret
}
virtual_ipaddress {
1.2.3.4
}
}
这基本上可以正常工作,但有一个例外:每次 systemd 更新时(它运行的是 Ubuntu 18.04),它都会重新加载其网络组件,导致浮动 IP 被丢弃,因为它未在系统中配置。由于两个 keepalived 实例仍然可以互相 ping,因此它们都没有发现任何错误,也没有对此做出反应,导致浮动 IP 保持关闭状态。
我发现你可以用这样的简单脚本来检查 IP:
vrrp_script chk_proxyip {
script "/sbin/ip addr |/bin/grep 1.2.3.4"
}
vrrp_instance VI_1 {
# [...]
track_script {
chk_proxyip
}
}
但我不确定这是否是一种有效的方法。
如果我理解正确的话,如果我在 VM1 上配置此脚本,将会发生以下情况:
- VM1 因 systemd 重启而丢失 IP
- VM1 上的 keepalived 检测到 IP 丢失
- keepalived 切换
FAULT
状态并停止广播 vrrp 包 - VM2 上的 keepalived 检测到 VM1 上的 keepalived 丢失,并将浮动 IP 设置为
此时,IP 在 VM2 上再次可用,但 VM1 将保持此状态,因为该 IP 永远不会在 VM1 上再次出现。如果 VM2 发生故障(无论出于何种原因),VM1 不会接管它,因为它仍处于此FAULT
状态。
如何确保浮动 IP 在其中一个虚拟机上始终处于运行状态?
进一步测试:
我尝试 ping 浮动 IP,而不是在 check_script 中检查它在特定主机上是否处于活动状态:
vrrp_script chk_proxyip {
script "/bin/ping -c 1 -w 1 1.2.3.4"
interval 2
}
在节点 2 上配置此脚本的结果如下:
- 删除节点 1 上的 IP 以进行测试
- 节点 2 检测到 IP 丢失,并从更改
BACKUP
为FAULT
- 节点 1 忽略了状态变化并保持
MASTER
结果是:IP 保持关闭状态。
在节点 1 上配置脚本的结果如下:
- 删除了节点 1 上的 IP
- 节点 1 检测到 IP 丢失,并从更改
MASTER
为FAULT
- 节点2检测到节点1上的状态变化,由 变为
BACKUP
,MASTER
在节点2上配置浮动IP
嗯,然后……
Feb 13 10:11:26 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Transition to MASTER STATE
Feb 13 10:11:27 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Entering MASTER STATE
Feb 13 10:11:29 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Received advert with higher priority 150, ours 100
Feb 13 10:11:29 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Entering BACKUP STATE
Feb 13 10:11:32 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Transition to MASTER STATE
Feb 13 10:11:33 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Entering MASTER STATE
Feb 13 10:11:36 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Received advert with higher priority 150, ours 100
Feb 13 10:11:36 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Entering BACKUP STATE
Feb 13 10:11:38 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Transition to MASTER STATE
Feb 13 10:11:39 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Entering MASTER STATE
Feb 13 10:11:41 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Received advert with higher priority 150, ours 100
Feb 13 10:11:41 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Entering BACKUP STATE
Feb 13 10:11:44 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Transition to MASTER STATE
Feb 13 10:11:45 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Entering MASTER STATE
Feb 13 10:11:47 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Received advert with higher priority 150, ours 100
...
我必须在节点 1 上重新启动 keepalived 以停止节点之间的乒乓球游戏。
答案1
我们遇到了这个问题,并确定这是 ubuntu 18.04 中现在使用 netplan 的 systemd-networkd 的问题。较新版本的 keepalived 应该可以修复此问题,因为它可以检测到导致故障转移的浮动 IP 的删除,请参阅https://github.com/acassen/keepalived/issues/836。
18.04 中没有提供较新版本的 keepalived,因此我们决定继续使用 ubuntu 16.04,并等到 ubuntu 20.04 为使用 keepalived 的服务器提供服务,而不是尝试进行反向移植。
答案2
该问题已于 2018-05-26 版 keepalived 2.0.0 中修复,请参阅keepalived 的更新日志
- 监控 VIP/eVIP 的删除情况,如果 VIP/eVIP 被删除则转换到备份,除非它配置了无轨道选项。
答案3
我认为你可以对浮动 IP 进行 ping 检查,然后当它失败时重新启动所有节点上的 keepalived 服务
你的 IP 将会回来
将其放入每分钟或每 5 分钟运行一次的 cronjob 中
答案4
作为一种解决方法,我将浮动 IP 配置为主节点上的附加 IP(具有更高的优先级)
/etc/netplan/01-netcfg.yaml:
network:
version: 2
renderer: networkd
ethernets:
ens160:
addresses: [ 1.2.3.5/24, 1.2.3.4/24 ]
gateway4: 1.2.3.254
nameservers:
search: [ example.com ]
addresses:
- "1.2.3.40"
这样,在启动或 systemd 重新配置时,浮动 IP 位于主节点上。如果主节点发生故障,则由辅助节点通过 keepalived 接管。如果主节点恢复,则辅助节点上的 keepalived 将释放该 IP。
这实际上不是一个解决方案,但目前我没有看到更好的解决方案。
更新
虽然这个解决方法有点用,但它有一些副作用。重启后,浮动 IP 地址在接口上出现了两次:
2: ens160: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc fq_codel state UP group default qlen 1000
link/ether 00:50:56:a3:d7:d1 brd ff:ff:ff:ff:ff:ff
inet 1.2.3.5/24 brd 1.2.3.255 scope global ens160
valid_lft forever preferred_lft forever
inet 1.2.3.4/32 scope global ens160
valid_lft forever preferred_lft forever
inet 1.2.3.4/24 brd 1.2.3.255 scope global secondary ens160
valid_lft forever preferred_lft forever
这似乎没有影响任何东西,它有效,但它困扰着我。最后我mp3foley 的答案并使用 Ubuntu 16.04 重新安装了虚拟机。