由于业务需要,在部署LVS+Keepalived时,公司申请了一个C网段,让keepalived绑定254个VIP地址。满满的以为没有一点问题,但却遇到了keepalived限制死20 VIP的问题。刚开始一无所措,但经过思考,以及请教别人,得到了很多种思路,虽然有些思路并没解决问题,但思路本身就是很重要的,因为以后难免会用同样思路解决其他的问题。
问题现象如下:
# tail /var/log/syslog
Nov 12 18:15:34 Telcom-DG-WY-LVS-13-130 Keepalived_vrrp[27984]: => Declare others VIPs into the excludedvip block
Nov 12 18:15:34 Telcom-DG-WY-LVS-13-130 Keepalived_vrrp[27984]: VRRP_Instance(VI_1) trunc to the first 20 VIPs.
Nov 12 18:15:34 Telcom-DG-WY-LVS-13-130 Keepalived_vrrp[27984]: => Declare others VIPs into the excludedvip block
Nov 12 18:15:34 Telcom-DG-WY-LVS-13-130 Keepalived_vrrp[27984]:VRRP_Instance(VI_1) trunc to the first 20 VIPs.
解决思路如下:
方法一:搜索是否有配置可以放开限制
百度没有搜索到相关内容,google上有相似问题,但也都说是keepalived限制死的,没有办法。如果要改的话,需要改源码。此路不通!
方法二:起多进程
一个keepalived绑定20个VIP,那启动7个keepalived进程,不同进程指定不同配置文件,就像mysql多实例一样。经过实践,不支持启动多个配置文件,启动会提示该进程已存在。此路不通!
方法三:替换掉keepalived使用heartbeat
由于keepalived程序的限制,导致只能启动20个VIP,但我手动再添加新的VIP是可行的。而heartbeat的主要作用是心跳,配置VIP也是调用脚本,所以该方法是可行的。但是由于heartbeat本身没有真实服务器的健康检查(需要使用ldirectord),也没有VIP配置,所以配置及维护难度略高。
方法四:自己写脚本高可用切换及健康检查
在以前没有keepalived的时候,都是自己写脚本来实现健康检查与高可用切换。经过初步分析,我需要做如下几件事:1、真实服务器保活,2、VIP配置及删除,3、对端LVS服务器心跳。总体上说难度不是很大,但有很多细节问题,如上行监控,重试次数等,需要一段时间来完善,这影响工作进度。但该方法是可行的。
方法五:使用keepalived的脚本触发功能(推荐)
咨询公司资深研发,他说LVS最好还是和keepalived用的好,于是提出keepalived的脚本触发功能。即keepalived自身虽然只能配置20个VIP,但是在一个实例变为主或从时,能够触发脚本,所以:当变为MASTER时,调用添加VIP脚本,变为BACKUP时,调用删除VIP脚本。经过测试,简单可靠实在。
调用脚本参数:
$ cat/etc/keepalived/keepalived.conf|grep notify
notify_master /scripts/add_ip_1_130.sh #添加130个VIP的脚本
notify_backup /scripts/del_ip_1_130.sh #删除130个VIP的脚本
脚本配置可参考另一篇博文:
通过此次事件总结出两个道理:
1、方案越多底气越足。(因为问题变成不是无法解决,而是选择哪个能更快更好的解决。)
2、沟通大大的提升工作效率。 (如果不沟通咨询,我只想到了方法一和方法四。而咨询得到一个新方案只花了几句话的时间,太划算了。)