Kafka指标性能分析

南墨2年前技术文章848

1)      根据group组查看消费情况(数值不准,仅可参考)

根据之前的分析,只有driverconsumer会提交offset,因此通过

./kafka-consumer-groups.sh命令能够查看对应分区的消费情况,如下图:

1.png

对应时间段的批次执行时间。

2.png

这样能够看出,这个时间段消费的数据是从哪个offset到哪个offset的数据段,可以根据这个时间看出是否有数据挤压。

注意:

1, 只有在consumer的配置文件中设置了enable.auto.commit=true才能使用./kafka-consumer-groups.sh命令查看,spark内部并没有自动提交这个offset的机制。

2, LAG的数值在这里是不准确的,因为使用自动提交后有提交时间间隔,因此存在时间不同步的情况。LAG值仅可作为参考。

2)      抽样最新的数据

可以使用新的消费命令查看,最新的数据的offset是哪个,如下图:

./kafka-verifiable-consumer.sh  --topic testsparktopic --group-id test_$(date +%s)

 --verbose --consumer.config ../config/consumer.properties --broker-list kafka业务ip:21007  --reset-policy latest --max-messages 100

其中核心参数含义如下:

--topic 为要抽样的topic名称

--group-id 本次消费的groupid,要求每次获取最新的offset需要使用最新的groupID

--verbose  是否打印出具体的数据

--consumer.config 消费者的配置文件路径

--reset-policy 消费offset得到策略

--max-messages 消费多少条数据,若指定为-1则会一直消费直到手动停止消费任务

执行后消费情况如下:

3.png

核心的数据结构如下:

    Timestamp:为时间戳,默认是数据发送时间。

    Key:数据的key值,若不设置则为null

    Value:数据的值。

Topictopic名称。

Partition:消费数据所属的分区编号。

Offset:消费数据的偏移量。

 

说明:由于每次需要获取的offset一定是最新的,因此,每次消费的时候必须使用最新的groupID

3)      消费指定位置的数据,并且查看时间消息的生产时间

当排查问题涉及到数据延时的时候,需要分析一下当时数据产生的时间是什么时候,这个时候需要分析一下数据生产的时间和消费批次时间之间的对应关系。

假设需要定位:3分区,1000~2000之间的数据信息。

(1)     消费100条数据,设置group组为testgroup,让消费者组生效

./kafka-verifiable-consumer.sh  --topic testsparktopic  --broker-list 189.39.234.219:21007 --verbose --consumer.config ../config/consumer.properties --max-messages 100 --group-id testgroup

4.png

(2)     使用kafka-consumer-group命令看一下对应的消费状况

5.png

(3)     重置offset,将组内的所有offset重置到1000

 ./kafka-consumer-groups.sh --bootstrap-server 189.39.234.219:21007 --new-consumer --to-offset 1000 --reset-offsets --group testgroup --command-config ../config/consumer.properties --all-topics

 6.png

(4)     再消费2000条数据

 ./kafka-verifiable-consumer.sh  --topic testsparktopic  --broker-list 189.39.234.219:21007 --verbose --consumer.config ../config/consumer.properties --max-messages 2000 --group-id testgroup

6.png

此处可以看到消费结果。

(5)     查找offset=2000的时间戳为1585316904936,这个时间即为这条数据开始发送的时间。

7.png

 


相关文章

Python 调用阿里云 OpenAPI 巡检到期云资源

Python 调用阿里云 OpenAPI 巡检到期云资源

前言本篇文章介绍我写的一个程序,通过调用阿里云 OpenAPI 巡检即将到期的云资源。https://github.com/COOH-791/cloud_instance_sentry1. 用途说到云...

k8s集群状态与日志查看

一、状态查看1. 查看 Pod 状态以及运行节点kubectl get pods -o widekubectl -n kube-system get pods -o wide2. 查看 Pod 事件k...

MySQL运维实战(4.6) SQL_MODE之NO_BACKSLASH_ESCAPES

设置NO_BACKSLASH_ESCAPES后,反斜杠(\)不作为转义符。不设置NO_BACKSLASH_ESCAPES时,反斜杠(\)用来转义后一个字符mysql> create&n...

docker私有仓库搭建及containerd使用私有仓库

docker私有仓库搭建及containerd使用私有仓库

这里我们要搭建的私有仓库非harbor,而是更轻量的docker-registry。使用的工具是containerd私有仓库搭建```Plain Text创建目录mkdir -p /opt/docke...

PostgreSQL 基于时间点恢复

前言本篇文章介绍 PostgreSQL 基于时间点恢复(point-in-time-recover)需要的条件及恢复过程,属于操作说明。1. WAL 日志WAL(Write Ahead Log) 日志...

MySQL 切换主备(三)

MySQL 切换主备(三)

三、切换主备:3.1、确认主库角色查看 vip 状态,目前在主库上面。3.2、确认备库角色此时备库read_only=1只读不写查看数据库读写状态:show global variables like...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。