flume性能调优

南墨2年前 (2023-12-06)技术文章999

1.Source性能调优

1.1 Spooldir Source

使用Spooldir Source采集日志数据时，若每行日志数据<100bp，可以通过将多行合并传输来提升传输性能

建议合并时根据数据长度来确定多少行合并为一个单位进行传输，合并后的长度建议在1K以上，譬如数据长度为50bp，那么可以采用20行合并为一个单位传输，配置示例如下：

server.sources.static_log_source.deserializer.maxBatchLine = 20

server.sources.static_log_source.deserializer.maxLineLength = 2048

1.2 Avro Source

Avro source支持SSL加密传输，但加密传输势必会影响传输性能，因此如果环境足够安全或传输的数据非敏感数据，建议采用非加密传输来提升传输性能，配置示例如下：

server.sources.avro_source.ssl = false

1.3 TailDir Source

如果TAILDIR监视的目录下有数千文件，按照正则表达式列出所有的文件会是一个比较耗费资源的过程，建议打开cachePatternMatching开关以提升性能，配置示例如下：

server.sources.taildir_source.cachePatternMatching = false

2. Channel性能调优

2.1 File Channel

使用File Channel会将缓存数据写入本地磁盘，由于需要频繁的读写dataDirs所在磁盘，若数据流量比较大，可能造成磁盘IO高，从而影响传输性能；如果IO响应时间经常超过10ms，那么建议将dataDirs设置在更多的磁盘上以降低磁盘IO，配置示例如下：

server.channels.file_channel.dataDirs = /data/data1/flume/datadir, /data/data2/flume/datadir, /data/data3/flume/datadir

Memory Channel使用内存作为缓存，相较于File Channel有更好的性能，但使用Memory Channel可靠性较低，一旦宕机或其他意外发生，Channel中缓存的数据将会丢失，因此Channel的容量（capacity）不宜设置过大，另一方面Channel容量大小直接影响到flume进程占用内存大小，容量越大，占用的内存越大，GC耗时越长，性能也越低；建议Channel容量设置为transactionCapacity的十倍，最好不要超过100000；配置示例如下：

server.channels.memory_channel.capacity = 100000

3. Sink性能调优

3.1 Hdfs Sink

Hdfs Sink支持文件滚动，滚动策略有按时间（hdfs.rollInterval）、文件大小（hdfs.rollSize）、Event个数（hdfs.rollCount）滚动，该配置对传输性能有影响，滚动约频繁对性能影响越大；超时时间（hdfs.callTimeout）也对传输数据有影响，尤其是HDFS压力较大的场景；

如何提升hdfs sink的性能？

1. 在业务允许的范围内，尽可能减小文件滚动频率；

2. 若HDFS压力较大、flume日志中有比较频繁hdfs超时异常，参见5.5 性能瓶颈监控及调优中超时异常章节介绍调整hdfs.callTimeout设置；

配置示例如下：

server.channels.hdfs_sink.coalesceIncrements = true