触发kube-apiserver流控导致ACK集群中节点状态异常

小丫2年前技术文章830

问题现象

ack集群中一个节点状态为notready,但是排查节点上的核心组件:kubelet、kube-proxy、flannel、etcd等状态均为正常。

排查步骤

1、查日志

分别排查核心组件以及系统日志,在kubelet以及message日志中看到以下可疑信息:

image.png 

存在大量的 访问apiserver 6443的Throttling request took日志。所以判断可能是触发了kubelet连接kube-apiserver的流控。

2、修改kubelet参数

既然是触发了连接kube-apiserver的流控,那么可以尝试将kubelet对应参数限制调大。

修改方法可以参考文档:https://help.aliyun.com/document_detail/452567.html

通过在线api调用方式,修改参数kubeAPIQPS、kubeAPIBurst,将对应值调高

image.png 

打开阿里云openapi地址,然后找到接口:ModifyNodePoolNodeConfig,填写集群id,节点池id以及上面两个参数对应的值后发起调用。

image.png 

image.png 

image.png

调用完成之后,可以通过查询接口,或者直接在主机节点上ps -ef| grep kubelet查看对应参数值是否生效。

最后验证节点状态是否正常上报为ready

建议

后续出现可以立即收集一下以下两个信息

1、Kubernetes集群的诊断信息:

https://help.aliyun.com/document_detail/86761.html

2、kubelet 日志 journalctl -u kubelet >/tmp/kubelet.log


相关文章

kafka开启Kerberos

1、修改server.properties#增加如下配置 listeners=SASL_PLAINTEXT://IP:port security.inter.broker.protocol=SAS...

oracle开启关闭归档

一、开启归档1.开启前准备:备份spfileCreate pfile='d:pfileSID.ora' from spfile;OS上创建归档目录:+DATA_DG/arch设置归档路径:alter...

Kubernetes 认证授权

Kubernetes 认证授权

1、认证所有 Kubernetes 集群都有两类用户:由 Kubernetes 管理的服务账号和普通用户。任何客户端访问之前,经由 kubernetes 时,需经过:认证(token, ssl)、授权...

Hive优化之SQL的优化(三)

Hive优化之SQL的优化(三)

     Hive是大数据领域常用的组件之一,主要是大数据离线数仓的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的一个点,因此掌握一些Hi...

Redis 运维规范_运维管理规范

三、运维管理规范1、密码认证 云上 Redis 的权限控制:账号管理+白名单设置+阿里云子账号权限。对于线下 Redis 可以通过设置密码和 bind 参数文件控制访问。2、合理设置备份策略 Redi...

企业级大数据安全架构(十一)

企业级大数据安全架构(十一)

一、Kerberos接入dophinscheduler建议将dophinscheduler集成到Ambari安装部署,在Ambari上面开启kerberos1.安装准备编译从GitHub获取dolph...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。