触发kube-apiserver流控导致ACK集群中节点状态异常

小丫2年前技术文章1034

问题现象

ack集群中一个节点状态为notready,但是排查节点上的核心组件:kubelet、kube-proxy、flannel、etcd等状态均为正常。

排查步骤

1、查日志

分别排查核心组件以及系统日志,在kubelet以及message日志中看到以下可疑信息:

image.png 

存在大量的 访问apiserver 6443的Throttling request took日志。所以判断可能是触发了kubelet连接kube-apiserver的流控。

2、修改kubelet参数

既然是触发了连接kube-apiserver的流控,那么可以尝试将kubelet对应参数限制调大。

修改方法可以参考文档:https://help.aliyun.com/document_detail/452567.html

通过在线api调用方式,修改参数kubeAPIQPS、kubeAPIBurst,将对应值调高

image.png 

打开阿里云openapi地址,然后找到接口:ModifyNodePoolNodeConfig,填写集群id,节点池id以及上面两个参数对应的值后发起调用。

image.png 

image.png 

image.png

调用完成之后,可以通过查询接口,或者直接在主机节点上ps -ef| grep kubelet查看对应参数值是否生效。

最后验证节点状态是否正常上报为ready

建议

后续出现可以立即收集一下以下两个信息

1、Kubernetes集群的诊断信息:

https://help.aliyun.com/document_detail/86761.html

2、kubelet 日志 journalctl -u kubelet >/tmp/kubelet.log

相关文章

kafka安全认证与授权

kafka安全认证与授权一、SASL、SSL、ACL介绍1.SASL鉴权协议,主要用来保证客户端登录服务器的时候,传输的鉴权数据的安全性,SASL是对用户名和密码加解密用的 2.SSL是一种间于传输层...

PostgreSQL 基于时间点恢复

前言本篇文章介绍 PostgreSQL 基于时间点恢复(point-in-time-recover)需要的条件及恢复过程,属于操作说明。1. WAL 日志WAL(Write Ahead Log) 日志...

dbms_support包跟踪10046

系统默认没有安装dbms_support这个包,可以手动执行$ORACLE_HOME/rdbms/admin/dbmssupp.sql脚本来创建该包。安装dbms_support包: SQL>...

EasyMR之Yarn资源队列管理

EasyMR之Yarn资源队列管理

设想一下,你现在所在的公司有一套线上的hadoop集群。A部门经常做一些定时的BI报表,B部门则经常使用一些软件做一些临时需求。那么他们肯定会遇到同时提交任务的场景,这个时候到底如何分配资源满足这两个...

Kubernetes源码解读(六)-- Informer源码分析

Kubernetes源码解读(六)-- Informer源码分析

Informer 这个词的出镜率很高,我们在很多文章里都可以看到 Informer 的身影,但是我们在源码里真的去找一个叫做 Informer 的对象,却又发现找不到一个单纯的 Informer,但是...

linux下xfs文件系统类型/目录扩容

1、查看分区信息[root@172-16-121-112 ~]# fdisk -lDisk /dev/vda: 107.4 GB, 107374182400 bytes, 209715200 sect...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。