MapReduce生产经验

楼高2年前 (2023-12-25)技术文章613

MapReduce程序效率的瓶颈在于两点：

1）计算机性能

（1）CPU、内存、磁盘、网络

2）I/O操作优化

（1）数据倾斜

（2）Map运行时间太长，导致Reduce等待过久

（3）小文件过多

下来就根据这两点瓶颈可以进行适当调优

map端：

1.自定义分区，减少数据倾斜，代码中定义类，继承Partitioner接口，重写getPartition方法

2.减少溢写的次数，mapreduce.task.io.sort.mb，Shuffle的环形缓冲区大小默认100m，可以提高到200m，mapreduce.map.sort.spill.percent，环形缓冲区溢出的阀值默认是80%，可以提高到90%

3.增加Merge合并次数，mapreduce.task.io.sort.factor默认是10，可以提高到20

4.在不影响业务的前提下提前Combiner

5.减少磁盘IO可以采用Snappy压缩

6.Mapreduce.map.memory.mb，默认MapTask内存1g，根据实际情况提高该内存

7.Mapreduce.map.java.opts，控制MapTask堆内存大小，如果内存不够报错oom

8.Mapreduce.map.cpu.vcores，默认MapTask的CPU核数1，如果计算比较密集可以增加CPU核数

9.异常重试，mapreduce.map.maxattempts，每个MapTask最大重试次数，一旦重试次数超过，认为MapTask失败，根据机器性能可以提高

reduce端：

1.mapreduce.reduce.shuffle.parallelcopies，每个Reduce去Map中拉去数据的并行数，默认值是5，可以适当提高

2.Mapreduce.reduce.shuffle.input.buffer.percent，Buffer大小占Reduce可用内存的比例，默认值0.7，可以提高到0.8

3.Mapreduce.reduce.shuffle.merge.percent，Buffer中的数据达到多少比例开始写入磁盘，默认值0.66，可以提高到0.75

4.Maperduce.reduce.memory.mb默认ReduceTask内存上限1g，128m数据对应1g内存原则，适当提高内存到4-6g

5.Mapreduce.reduce.java.opts，控制ReduceTask堆内存大小，和map一样如果内存不够报错oom

6.Mapreduce.reduce.cpu.vcores默认ReduceTask的CPU核数1个，可以提高到2-4个

7.Mapreduce.reduce.maxattempts每个Reduce Task最大重试次数，一旦重拾次数超过认为失败，根据机器性能适当提高

8.Mapreduce.job.reduces.slowstart.completedmaps当MapTask完成的比例达到该值后才会为ReduceTask申请资源。

能不用Reduce尽可能不用

返回列表

上一篇：HDFS核心参数

下一篇：Yarn生产环境核心参数

MySQL运维实战之ProxySQL（9.7）改写SQL

使用查询修改功能，可以在不改变应用程序的情况下，修改SQL语句。比如，我们可以使用SQL改写的功能，给SQL添加hint，以此来优化性能。delete from mysql_que...

HBase 的 BulkLoad 机制

1.概述在实际生产环境中，有这样一种场景：用户数据位于HDFS中，业务需要定期将这部分海量数据导入 HBase 系统，以执行随机查询更新操作。这种场景如果调用写入 API 进行处理，极有可能会给 Re...

MySQL运维实战（7）建立复制

建立复制的基本步骤1、主库开启binlog主库需要配置的关键参数server_id：主备库需要设置为不同。log_bin：binlog文件的前缀，可以指定绝对路径，也可以只指定文件名。若不指定路径，b...

Kafka报 IO Exception(many open files)

1 线上问题kafka报错many open files，查看日志如下截取部分错误信息2 问题分析首先看kafka监控平台的一些监控指标，topic列表中关于topic的信息项如下所示：（1）topi...

Linux高并发系统内核优化

1）timewait的数量，默认是180000。(Deven:因此如果想把timewait降下了就要把tcp_max_tw_buckets值减小)net.ipv4.tcp_max_tw_buckets...

kafka文件存储机制

Topic 数据的存储机制 Topic是逻辑上的概念，而partition是物理上的概念，每个partition对应于一个log文件，该log文件中存储的就是Producer生产的数据。P...

MapReduce生产经验

相关文章

MySQL运维实战之ProxySQL（9.7）改写SQL

HBase 的 BulkLoad 机制

MySQL运维实战（7）建立复制

Kafka报 IO Exception(many open files)

Linux高并发系统内核优化

kafka文件存储机制

发表评论

©Copyrights 2016-2022 YUNCHE 浙ICP备2021017017号

MapReduce生产经验

相关文章

MySQL运维实战之ProxySQL（9.7）改写SQL

HBase 的 BulkLoad 机制

MySQL运维实战（7）建立复制

Kafka报 IO Exception(many open files)

Linux高并发系统内核优化

kafka文件存储机制

发表评论 取消回复

©Copyrights 2016-2022 YUNCHE 浙ICP备2021017017号var _hmt = _hmt || [];(function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?dcf8139ce75b768b71dccc5e589b983c"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s);})();

发表评论

©Copyrights 2016-2022 YUNCHE 浙ICP备2021017017号