最近公司规模扩大,原办公室已经无法容纳更多的员工,公司高层决定搬迁办公室,同时也需要搬迁,并且在现有的电信桥接动态公网IP出口的基础上需要再增加一条移动专线,现在有2台交换机,也无法支持新的办公,需要再采购一个交换机。现在办公和服务器在一个网段192.168.2.0/24。我在了解业务后,对新办公室进行了如下改造:
1、首先网段肯定不够支撑新办公区的网络,于是改造成大内网192.168.0.0/16的B类网络,同时也是服务器网段;
2、3个无线AP接入机房的TP-LINK小型POE供电交换机,网段为10.0.0.0/24;
3、工控机网段为172.17.0.0/24
4、双出口,访问云服务器,腾讯云TDSQL等云产品走移动专线出口,办公和无线AP走电信动态公网IP出口。
所有的路由都在华为USG防火墙进行配置,这里因为是双出口,所以配置了策略路由。
一切按部就班,配置完毕,无线AP通了,办公网络也是通的,发现有的办公电脑无法访问服务器IP地址,刚开始以为是华为USG防火墙的安全策略配置有问题给阻断了,排查了半天,发现因为有的办公电脑DHCP获取到的IP地址是192.168.2.X/16的IP地址,有的不是2.0的,找到原因后就把所有服务器的子网改成16位。于是问题解决了。
现象
运行了3天左右后,研发团队反映测试环境经常出现DNS解析异常,无法访问外网问题。
排查过程
经过重启业务服务,本地DNS服务器测试等所有基本操作。最开始排查以为是华为USG防火墙问题,后来我在k8S内部运行busybox调试工具容器,经过测试发现,K8S内部的coredns解析是正常的,可以ping通k8s的节点IP地址,但是无法ping通百度,找到问题所在后,我去通过kubectl show describe node看了下K8S节点信息,发现节点的IP地址仍然是一个192.168.2.249/24的子网。
处理办法
删除calico网络插件相关的容器进行重建
再次进行busybox调试容器ping百度,现在通了,问题解决。