触发kube-apiserver流控导致ACK集群中节点状态异常

小丫3年前技术文章1402

问题现象

ack集群中一个节点状态为notready,但是排查节点上的核心组件:kubelet、kube-proxy、flannel、etcd等状态均为正常。

排查步骤

1、查日志

分别排查核心组件以及系统日志,在kubelet以及message日志中看到以下可疑信息:

image.png 

存在大量的 访问apiserver 6443的Throttling request took日志。所以判断可能是触发了kubelet连接kube-apiserver的流控。

2、修改kubelet参数

既然是触发了连接kube-apiserver的流控,那么可以尝试将kubelet对应参数限制调大。

修改方法可以参考文档:https://help.aliyun.com/document_detail/452567.html

通过在线api调用方式,修改参数kubeAPIQPS、kubeAPIBurst,将对应值调高

image.png 

打开阿里云openapi地址,然后找到接口:ModifyNodePoolNodeConfig,填写集群id,节点池id以及上面两个参数对应的值后发起调用。

image.png 

image.png 

image.png

调用完成之后,可以通过查询接口,或者直接在主机节点上ps -ef| grep kubelet查看对应参数值是否生效。

最后验证节点状态是否正常上报为ready

建议

后续出现可以立即收集一下以下两个信息

1、Kubernetes集群的诊断信息:

https://help.aliyun.com/document_detail/86761.html

2、kubelet 日志 journalctl -u kubelet >/tmp/kubelet.log


相关文章

hdfs数据迁移

hdfs数据迁移

通过使用distcp进行数据全量迁移DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作...

LINUX 安全运维-文件安全

LINUX 安全运维-文件安全

文件的ACL针对文件以及文件夹我们在新建的时候,通常会有一个默认的权限:[rootobogontmplmkdirtest[rootcbogontmp]touchtestxt[rootcbogontmp...

MongoDB的碎片化问题

一、碎片化问题1.1 为什么会出现碎片化的问题在生产业务中,一般会对集合数据进行频繁的增删改,常见的碎片化原因有:1、记录被remove,但是其空间没有被复用drop命令会直接删除集合的物理文件,空间...

K8s Pod无法访问SLB地址

K8s Pod无法访问SLB地址

一、问题现象客户反馈172.16.11.220 telnet 47.99.87.129 80 不通,另一台172.16.11.219可以通。二、排查思路172.16.11.220,172.16.11....

压测实操--TestDFSIO压测hdfs读写方案

压测实操--TestDFSIO压测hdfs读写方案

TestDFSIO主要是对hdfs的I/O性能进行测试,通过使用MapReduce作业来完成测试,作为并行读写文件进行I/O性能测试。每个map任务用于读或写每个文件,map的输出用于收集与处理文件相...

Flume抽取到kafka数据对比测试

Flume抽取到kafka数据对比测试

一、前言同一台机器两个flume进程抽取同一个目录下日志到kafka,对比kafka中数据量二、创建测试topic1、主集群创建topic --tes3kafka-topics --create --...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。