Kafka指标性能分析

南墨2年前技术文章863

1)      根据group组查看消费情况(数值不准,仅可参考)

根据之前的分析,只有driverconsumer会提交offset,因此通过

./kafka-consumer-groups.sh命令能够查看对应分区的消费情况,如下图:

1.png

对应时间段的批次执行时间。

2.png

这样能够看出,这个时间段消费的数据是从哪个offset到哪个offset的数据段,可以根据这个时间看出是否有数据挤压。

注意:

1, 只有在consumer的配置文件中设置了enable.auto.commit=true才能使用./kafka-consumer-groups.sh命令查看,spark内部并没有自动提交这个offset的机制。

2, LAG的数值在这里是不准确的,因为使用自动提交后有提交时间间隔,因此存在时间不同步的情况。LAG值仅可作为参考。

2)      抽样最新的数据

可以使用新的消费命令查看,最新的数据的offset是哪个,如下图:

./kafka-verifiable-consumer.sh  --topic testsparktopic --group-id test_$(date +%s)

 --verbose --consumer.config ../config/consumer.properties --broker-list kafka业务ip:21007  --reset-policy latest --max-messages 100

其中核心参数含义如下:

--topic 为要抽样的topic名称

--group-id 本次消费的groupid,要求每次获取最新的offset需要使用最新的groupID

--verbose  是否打印出具体的数据

--consumer.config 消费者的配置文件路径

--reset-policy 消费offset得到策略

--max-messages 消费多少条数据,若指定为-1则会一直消费直到手动停止消费任务

执行后消费情况如下:

3.png

核心的数据结构如下:

    Timestamp:为时间戳,默认是数据发送时间。

    Key:数据的key值,若不设置则为null

    Value:数据的值。

Topictopic名称。

Partition:消费数据所属的分区编号。

Offset:消费数据的偏移量。

 

说明:由于每次需要获取的offset一定是最新的,因此,每次消费的时候必须使用最新的groupID

3)      消费指定位置的数据,并且查看时间消息的生产时间

当排查问题涉及到数据延时的时候,需要分析一下当时数据产生的时间是什么时候,这个时候需要分析一下数据生产的时间和消费批次时间之间的对应关系。

假设需要定位:3分区,1000~2000之间的数据信息。

(1)     消费100条数据,设置group组为testgroup,让消费者组生效

./kafka-verifiable-consumer.sh  --topic testsparktopic  --broker-list 189.39.234.219:21007 --verbose --consumer.config ../config/consumer.properties --max-messages 100 --group-id testgroup

4.png

(2)     使用kafka-consumer-group命令看一下对应的消费状况

5.png

(3)     重置offset,将组内的所有offset重置到1000

 ./kafka-consumer-groups.sh --bootstrap-server 189.39.234.219:21007 --new-consumer --to-offset 1000 --reset-offsets --group testgroup --command-config ../config/consumer.properties --all-topics

 6.png

(4)     再消费2000条数据

 ./kafka-verifiable-consumer.sh  --topic testsparktopic  --broker-list 189.39.234.219:21007 --verbose --consumer.config ../config/consumer.properties --max-messages 2000 --group-id testgroup

6.png

此处可以看到消费结果。

(5)     查找offset=2000的时间戳为1585316904936,这个时间即为这条数据开始发送的时间。

7.png

 


相关文章

trino容器设置nodeselector(七)

trino容器设置nodeselector(七)

查看node labelkubectl get nodes --show-labels2、在容器中设置nodeselector属性  nodeSelector:     dps: "1"查看k8s...

MongoDB的索引(一)

一、TTL索引1、语法db.eventlog.createIndex( { "lastModifiedDate": 1 }, { expireAfterSeconds: 3600 } )2、TTL索引...

开源大数据集群部署(二十二)Flink on yarn部署

开源大数据集群部署(二十二)Flink on yarn部署

flink on yarn部署(每个节点)cd  /root/bigdata/ tar -xzvf  flink-1.14.6-bin-scala_2.12.tgz -C /opt/  ln -s...

Tcpdump抓包总结

Tcpdump抓包总结

一、简介tcpdump是一个用于截取网络分组,并输出分组内容的工具。凭借强大的功能和灵活的截取策略,使其成为类UNIX系统下用于网络分析和问题排查的首选工具 tcpdump提供了源代码,公开了接口,因...

impala集成ranger后无法刷新元数据

impala集成ranger后无法刷新元数据

【详细描述】impala集成ranger后无法执行invalidate metadata,报错显示没有对应权限【分析过程】daishuyun用户目前在ranger中的权限配置为:报错显示用户daish...

MySQL keepalived安装配置(二)

MySQL keepalived安装配置(二)

一、keepalived安装配置1.1、主备库安装keepalived服务:yum install -y keepalived yum install -y python MySQL-python1...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。