A集群导入B集群中的高可用版rancher，一直处于pending状态

小丫3年前 (2023-03-25)技术文章1884

问题现象：

已知在B集群中采用helm方式部署了一个高可用版本的rancher，该rancher中已经配置导入了三套集群，并且三套集群状态在rancher控制台处均显示正常，日常可借助该rancher管控这三套集群。现在公司内另外又新部署了一套k8s集群，假定名称为A集群，通过rancher控制台配置导入该A集群，发现rancher控制台处该集群状态一直显示为pending状态。

排查步骤：

rancher控制台上A集群状态显示为pending，没有其它任何报错提示，所以首先登录到B集群，然后查看rancher server端的日志是否有报错。

经核查，rancher server端有报错，具体报错内容忘记保存下来了，但是rancher server端的报错内容不太好定位具体是哪里的问题。

去A集群中查看rancher agent端是否有报错，最终看到有连接rancher server端端口超时的报错。

于是，登陆到A集群的rancher agent 的pod内，打算使用telnet测试下到rancher server端端口的连通性，发现pod内没有telnet命令。

1、pod内ping目标主机ip

尝试在A集群手动启动一个测试busybox，如下：

在该pod内测试到rancher server端的网络连通性，如下：pod内ping rancher server端pod所在的主机ip，ping不通

同时在该pod所在的主机节点上抓包，会发现，只有到目标地址的请求包，没有回包

然后在目标主机上抓包，可以看到有正常的请求包以及回包

2、pod所在主机ping目标主机

在busybox pod所在的集群A 主机节点测试到集群B主机节点ip的网络联通性，如下：集群A主机 ping集群B主机，可以正常ping通

结论：

最终排查，发现是由于集群A中pod的网段和主机网段冲突导致。

查看生效的pod网段可以直接使用命令：

kubectl get IPPool

总结：

k8s跨集群网络互通访问，如果出现网络不通的情况。

一般是优先从以下两个方面排查：

1、集群内网络插件是否正常。状态是否正常；网络插件日志是否有刷异常

2、网段是否有冲突情况。pod主机网段、主机网段

返回列表

上一篇：pod内无法访问slb的监听

下一篇：oracle手工完全恢复

相关文章

配置ranger后hive注册永久UDF

配置ranger后hive注册永久UDF

背景：由于有些场景在启用Ranger情况下，客户在分配权限时候对高权限有特别要求，尽可能给用户设置低权限，无法在ranger中设置用户为 is Role admin权限（hive管理员权限）操作流程：...

chengying-4.0登入接口逆向

chengying-4.0登入接口逆向

首先是登入的加密url：http://xxxxx/api/v2/user/login参数1. username:admin@dtstack.com2. password:614bb9438210c69...

InnoDB秘籍：MVCC机制与行锁的深度探索（3）

InnoDB秘籍：MVCC机制与行锁的深度探索（3）

03Innodb 锁机制锁用来控制多个并发的进程或线程对共享资源的访问，在 MySQL 数据库中，共享资源包括：内存中的链表结构，如会话列表、活跃事务列表、InnoDB Buffer Pool 中 L...

Hbase&Hive区别对比

Hbase和Hive定义区别Hbase，其实是Hadoop database的简称，是一种NoSQL数据库，主要适用于海量明细数据（十亿、百亿）的随机实时查询，如日志明细、交易清单、轨迹行为等。Hiv...

MySQL性能优化（三）函数运算导致无法使用索引

MySQL性能优化（三）函数运算导致无法使用索引

有时侯我们会遇到这样的情况：明明字段上已经建立了索引，但是查询还是无法使用索引。其中有一种情况是因为SQL中对索引字段进行了运算。一个例子select * from us...

mysql插入之前先测试环境试试

在生产环境中直接执行数据库操作可能会引起一系列问题，比如性能下降、数据不一致甚至系统崩溃。因此，在实际操作前在测试环境中进行彻底的测试非常重要。测试环境准备：确保测试环境与生产环境尽可能一致。这包括硬...

发表评论