kafka单条消息过大导致线上OOM

楼高2年前 (2023-12-25)技术文章2142

1 线上问题

kafka生产者罢工，停止生产，生产者内存急剧升高，导致程序几次重启。

查看日志，发现Produce程序爆异常kafka.common.MessageSizeTooLargeException。

查看kafka配置，默认单条消息最大1M，当单条消息长度超过1M，就会出现发送到broker失败，

从而导致消息在producer的队列一直累积，直到Produce OOM。

2 修改步骤

修改kafka的broker配置：message.max.bytes（默认1000000B），单条消息最大长度。使用

kafka时，应预估单条消息的最大长度，不然会发送失败

修改kafka的broker配置：replica.fetch.max.bytes (默认1MB)，broker可复制的消息的最大字

节数。应该比message.max.bytes大，否则broker会接收此消息，但无法将此消息复制出去，

从而造成数据丢失

修改消费者程序端配置：fetch.message.max.bytes (默认1MB) – 消费者能读取的最大消息。

应该≥message.max.bytes。若不调节该参数，会导致消费者无法消费到消息，且不会爆出异

常或警告，导致消息在broker累积，按需调整上三参数

3 是否参数调节得越大越好或者说，单条消息越大越好？

（1）性能

通过性能测试，kafka在消息为10K时吞吐量达到最大，更大消息降低吞吐量，在设计集群的

容量时，尤其要考虑。

（2）可用的内存和分区数

Brokers会为每个分区分配replica.fetch.max.bytes参数指定的内存空间，假设

replica.fetch.max.bytes=1M

且有1000个分区，则需近1G内存，确保分区数最大的消息不会超过服务器内存，否则OOM。

消费端的fetch.message.max.bytes指定最大消息需要的内存空间，同样，分区数最大需要内

存空间不能超过服务器内存。如果有大消息要传送，则在内存一定时，只能使用较少分区数

或使用更大内存的服务器

（3）GC

更大的消息会让GC更长（因为broker需分配更大的块），关注GC日志和服务器日志信息。

若长时间的GC导致kafka丢失了zk的会话，则需配置zookeeper.session.timeout.ms参数

为更大的超时时间

返回列表

上一篇：Kafka日志管理

下一篇：Kafka报 IO Exception(many open files)

MySQL性能优化（五）字符集不一致导致的隐式类型转换

上一篇文章中，我们介绍了隐式类型转换。这里我们介绍另一种形式的隐式类型转换，由于字符集不一致，导致关联查询无法使用索引。一个例子SELECT * FROM funds...

RAID磁盘阵列详解

1 RAID原理无论是DAS、NAS还是SAN，都是存储系统，一个存储系统可以包含多块磁盘。不同磁盘之间的组织排列，就是磁盘阵列技术，也就是RAID技术。RAID磁盘阵列技术的核心思想主要有两个，包括...

MySQL运维实战(7.1) 开启GTID复制

MySQL从5.6版本开始支持GTID复制。开启GTID之后，主库上执行的每一个事务都有一个全局唯一的ID。GTID由两部分组成：server_uuid和事务序列号。初始化数据库时，会生成一个全局唯一...

Trino配置yanagishima-23.0（包含编译）

1 环境介绍1.1 本文采用trino 359yanagishima v23.02 编译yanagishima2.1 安装编译yanagishima需要的工具安装编译yanagishima需要的工具w...

oracle gi安装报错PRCR-1079 : Failed to start resource ora.cvu

安装gi执行root.sh报错：PRCR-1079 : Failed to start resource ora.cvu安装gi执行root.sh报错：PRCC-1014 : LISTENER_SCA...

REPMGR-PG高可用搭建(三)

2.2.2repmgr安装兼容性3节点均安装repmgr1.安装依赖 # yum install flex 2.下载解压 # wget -c https://repmgr.org/downloa...

kafka单条消息过大导致线上OOM

相关文章

MySQL性能优化（五）字符集不一致导致的隐式类型转换

RAID磁盘阵列详解

MySQL运维实战(7.1) 开启GTID复制

Trino配置yanagishima-23.0（包含编译）

oracle gi安装报错PRCR-1079 : Failed to start resource ora.cvu

REPMGR-PG高可用搭建(三)

发表评论

©Copyrights 2016-2022 YUNCHE 浙ICP备2021017017号

kafka单条消息过大导致线上OOM

相关文章

MySQL性能优化（五）字符集不一致导致的隐式类型转换

RAID磁盘阵列详解

MySQL运维实战(7.1) 开启GTID复制

Trino配置yanagishima-23.0（包含编译）

oracle gi安装报错PRCR-1079 : Failed to start resource ora.cvu

REPMGR-PG高可用搭建(三)

发表评论 取消回复

©Copyrights 2016-2022 YUNCHE 浙ICP备2021017017号var _hmt = _hmt || [];(function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?dcf8139ce75b768b71dccc5e589b983c"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s);})();

发表评论

©Copyrights 2016-2022 YUNCHE 浙ICP备2021017017号