kafka常见配置参数解析

浩客2年前技术文章594

broker.id

broker 的全局唯一编号,不能重复,只能是数字

num.network.threads=3

处理网络请求的线程数量

num.io.threads=8

用来处理磁盘 IO 的线程数量

socket.send.buffer.bytes=102400

发送套接字的缓冲区大小

socket.receive.buffer.bytes=102400

接收套接字的缓冲区大小

socket.request.max.bytes=104857600

请求套接字的缓冲区大小

num.partitions=1

topic 在当前 broker 上的分区个数

num.recovery.threads.per.data.dir=1

用来恢复和清理 data 下数据的线程数量

offsets.topic.replication.factor=1

每个 topic 创建时的副本数,默认时 1 个副本

log.retention.hours=168

segment 文件保留的最长时间,超时将被删除

log.roll.hours

即使文件没有到达log.segment.bytes,只要文件创建时间到达此属性,就会创建新文件。这个设置也可以有topic层面的设置进行覆盖。默认4*7

log.cleanup.policy

log清除策略。默认delete

log.retention.bytes

每个topic下每个partition保存数据的总量。注意:

1、这是每个partitions的上限,因此这个数值乘以partitions的个数就是每个topic保存的数据总量。如果log.retention.hours和log.retention.bytes都设置了,则超过了任何一个限制都会造成删除一个段文件。2、这项设置可以由每个topic设置时进行覆盖。

log.cleaner.enable

开启一些清理线程,执行定时清理任务。在kafka 0.9.0之后 log.cleaner.enable 默认是true

log.segment.bytes=1073741824

每个 segment 文件的大小,默认最大 1G

log.segment.delete.delay.ms

日志文件被真正删除前的保留时间

log.retention.check.interval.ms=300000

检查过期数据的时间,默认 5 分钟检查一次是否数据过期

log.dirs=/opt/module/kafka/datas

kafka 运行日志(数据)存放的路径,路径不需要提前创建,kafka 自动帮你创建,可以配置多个磁盘路径,路径与路径之间可以用","分隔

zookeeper.connect

配置连接 Zookeeper 集群地址(在 zk 根目录下创建/kafka,方便管理)

zookeeper.connection.timeout.ms

客户端等待和zookeeper建立连接的最大时间。默认6000

日志刷新策略

Kafka的日志实际上是开始是在缓存中的,然后根据策略定期一批一批写入到日志文件中去,以提高吞吐率。

log.flush.interval.messages

消息达到多少条时将数据写入到日志文件

log.flush.interval.ms

当达到该时间时,强制执行一次flush

log.flush.scheduler.interval.ms

周期性检查,是否需要将信息flush

相关文章

hive部署

安装前准备修改环境变量vi /etc/profile 添加内容如下:(hive节点都要执行)export HIVE_HOME=/opt/hiveexport PATH=$PATH:$HIVE_HOME...

canal原理及使用

canal原理及使用

什么是canalcanal,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费。这里我们可以简单地把canal理解为一个用来同步增量数据的一个工具。工作原理MySQL主备复制原理M...

Redis 持久化机制 RDB

Redis 持久化机制 RDB

前言Redis 有两种持久化机制,分别是 RDB 与 AOF 本篇文章将介绍 RDB 的执行过程与应用。1. RDB 简介RDB 持久化是把当前进程数据生成快照保存到硬盘的过程,触发 RDB 持久化过...

使用 systemd 管理 MySQL 服务

前言systemd 是 Linux 系统推出的初始化(init)系统,MySQL 使用 RPM 或者 Debian 包安装 MySQL 会默认使用 systemd 来管理 MySQL 服务,不需要额外...

数据湖技术之iceberg(六)Iceberg表数据组织与查询

数据湖技术之iceberg(六)Iceberg表数据组织与查询

1     Iceberg表数据组织与查询1) 下载avro-tools jar包由于后期需要查看avro文件内容,我们可以通过avro-tool.jar来查看...

数仓主流架构简介之三

数仓主流架构简介之三

一、数仓架构经历过程随着数据量的暴增和数据实时性要求越来越高,以及大数据技术的发展驱动企业不断升级迭代,数据仓库架构方面也在不断演进,分别经历了以下过程:早期经典数仓架构 > 离线大数据架构 &...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。