A集群导入B集群中的高可用版rancher

琉璃3年前技术文章864

问题现象:

已知在B集群中采用helm方式部署了一个高可用版本的rancher,该rancher中已经配置导入了三套集群,并且三套集群状态在rancher控制台处均显示正常,日常可借助该rancher管控这三套集群。现在公司内另外又新部署了一套k8s集群,假定名称为A集群,通过rancher控制台配置导入该A集群,发现rancher控制台处该集群状态一直显示为pending状态。

排查步骤:

rancher控制台上A集群状态显示为pending,没有其它任何报错提示,所以首先登录到B集群,然后查看rancher server端的日志是否有报错。

经核查,rancher server端有报错,具体报错内容忘记保存下来了,但是rancher server端的报错内容不太好定位具体是哪里的问题。

A集群中查看rancher agent端是否有报错,最终看到有连接rancher server端端口超时的报错。

于是,登陆到A集群的rancher agent 的pod内,打算使用telnet测试下到rancher server端端口的连通性,发现pod内没有telnet命令。

1、pod内ping目标主机ip

尝试在A集群手动启动一个测试busybox,如下:

image.png 

在该pod内测试到rancher server端的网络连通性,如下:pod内ping rancher server端pod所在的主机ip,ping不通

image.png

 

同时在该pod所在的主机节点上抓包,会发现,只有到目标地址的请求包,没有回包

image.png 

然后在目标主机上抓包,可以看到有正常的请求包以及回包


image.png 

2、pod所在主机ping目标主机

busybox pod所在的集群A 主机节点测试到集群B主机节点ip的网络联通性,如下:集群A主机 ping集群B主机,可以正常ping通

image.png 

结论:

最终排查,发现是由于集群A中pod的网段和主机网段冲突导致。


image.png 

查看生效的pod网段可以直接使用命令:

kubectl get IPPool

纯文本

总结:

k8s跨集群网络互通访问,如果出现网络不通的情况。

一般是优先从以下两个方面排查:

1、集群内网络插件是否正常。状态是否正常;网络插件日志是否有刷异常

2、网段是否有冲突情况。pod主机网段、主机网段


相关文章

podman相关使用

Podman介绍Podman 是一个开源的容器运行时项目,可在大多数 Linux 平台上使用。Podman 提供与 Docker 非常相似的功能。正如前面提到的那样,它不需要在你的系统上运行任何守护进...

docker网络介绍

docker网络介绍

一、docker网络介绍安装docker时,会自动创建三个网络。可以使用docker network ls命令列出这些网络Docker内置这三个网络,运行容器时,可以使用--network标志来指定容...

mysql 事务隔离级别

mysql 事务隔离级别

一、事务隔离级别介绍多个连接开启各自事务操作数据库中数据时,数据库系统要负责隔离操作,以保证各个连接在获取数据时的准确性。事务隔离级别      MySQL隔离级别定义了事务与事务之间的隔离程度  二...

ACOS-可观测运维套件

ACOS-可观测运维套件

一、背景随着企业分布式应用、云计算的不断深入发展,业务系统的逻辑结构变得越来越复杂,面对企业运维复杂的环境和海量运维数据,在日常运维和生产运营中,会面临以下挑战:(1)多云,多系统,多服务,多数据的中...

配置ranger后hive注册永久UDF

配置ranger后hive注册永久UDF

背景:由于有些场景在启用Ranger情况下,客户在分配权限时候对高权限有特别要求,尽可能给用户设置低权限,无法在ranger中设置用户为 is Role admin权限(hive管理员权限)操作流程:...

Elasticsearch数据规划

1.1 为什么数据规划很重要任何系统都有一套更为适用的规则或者其系统规格,前期的详细设计能为我们后期维护优化节约大量的精力。在我们实际的经验中,发现大部分问题(分片严重超规格,单个分片超大,索引map...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。