Hadoop配置LZO压缩

芒果2年前 (2023-06-29)技术文章1040

hadoop-lzo编译

Hadoop支持LZO

0. 环境准备

maven（下载安装，配置环境变量，修改sitting.xml加阿里云镜像）

gcc-c++

zlib-devel

autoconf

automake

libtool

通过yum安装即可，yum -y install gcc-c++ lzo-devel zlib-devel autoconf automake libtool

1. 下载、安装并编译LZO

wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.10.tar.gz

tar -zxvf lzo-2.10.tar.gz

cd lzo-2.10

./configure -prefix=/usr/local/hadoop/lzo/

make -j 20

make install

2. 编译hadoop-lzo源码

2.1 下载hadoop-lzo的源码，下载地址：https://github.com/twitter/hadoop-lzo/archive/master.zip

2.2 解压之后，修改pom.xml

<hadoop.current.version>3.1.3</hadoop.current.version>

2.3 声明两个临时环境变量

export C_INCLUDE_PATH=/usr/local/hadoop/lzo/include

export LIBRARY_PATH=/usr/local/hadoop/lzo/lib

2.4 编译

进入hadoop-lzo-master，执行maven编译命令

mvn package -Dmaven.test.skip=true

2.5 进入target，hadoop-lzo-0.4.21-SNAPSHOT.jar 即编译成功的hadoop-lzo组件

hadoop-lzo-0.4.20.jar文件：

将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop/share/hadoop/common/

同步hadoop-lzo-0.4.20.jar到emr2、emr3

core-site.xml增加配置支持LZO压缩

<name>io.compression.codecs</name>

<value>

org.apache.hadoop.io.compress.GzipCodec,

org.apache.hadoop.io.compress.DefaultCodec,

org.apache.hadoop.io.compress.BZip2Codec,

org.apache.hadoop.io.compress.SnappyCodec,

com.hadoop.compression.lzo.LzoCodec,

com.hadoop.compression.lzo.LzopCodec

</value>

</property>

<name>io.compression.codec.lzo.class</name>

<value>com.hadoop.compression.lzo.LzoCodec</value>

</property>

同步core-site.xml到emr2、emr3

启动及查看集群

LZO创建索引

创建LZO文件的索引，LZO压缩文件的可切片特性依赖于其索引，故我们需要手动为LZO压缩文件创建索引。若无索引，则LZO文件的切片只有一个。

测试wordcount, 看其结果:

[root@emr1 opt]# pdfs dfs -mkdir /input

[root@emr1 opt]# hdfs dfs -put test.txt /input

[root@emr1 opt]# hadoop jar /opt/dtstack/Hadoop/hadoop_pkg/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar wordcount -Dmapreduce.output.fileoutputformat.compress=true -Dmapreduce.output.fileoutputformat.compress.codec=com.hadoop.compression.lzo.LzopCodec /input/test.txt /output

创建lzo索引

hadoop jar /opt/dtstack/Hadoop/hadoop_pkg/share/hadoop/common/hadoop-lzo-0.4.20.jar com.hadoop.compression.lzo.DistributedLzoIndexer /output/part-r-00000.lzo

测试完成。

返回列表

上一篇：Hue简介

下一篇：Zeppelin简介

git常用命令

git status/git status -s查看状态[root@zutuanxue git_data]# git status位于分支 master尚无提交无文件要提交（创建/拷贝文件并使用 "g...

大数据平台袋鼠云托管运维与自建集群运维对比

对比维度袋鼠云托管运维自建hadoop集群运维成本根据业务需求定制架构，预估业务增涨合理规划，低成本高性价比需自行预估资源，规划架构性能大量集群优化经验，根据业务需求进行点对点优化采用开源社区版本，性...

MySQL 官方高可用方案：Innodb ReplicaSet

说明MySQL Innodb ReplicaSet 是 MySQL 团队在 2020 年推出的一款产品，用来帮助用户快速部署和管理主从复制，在数据库层仍然使用的是主从复制技术。ReplicaSet 主...

Debezium抽取SQL Server同步kafka

ebezium SQL Server连接器捕获SQL Server数据库模式中发生的行级更改。官方2.0文档：https://debezium.io/documentation/reference/2...

SQL Server优化入门系列（四）—— 找到Top SQL

说明从会话信息中我们可以查看实例当前正在运行的SQL、当前被Block的SQL。但是如果要查看过去一段时间执行的SQL，我们有几个选择1、通过外部SQL审计平台记录所有SQL。2、通过SQL Serv...

MySQL的数据拆分

一、拆分的概念数据拆分当数据过大，存储、SQL性能达到瓶颈；或多个业务共用一个数据库实例，一个小功能故障导致整个系统瘫痪；为解决类似问题，需考虑对数据进行拆分；粗一级的拆分，针对的是业务系统，将不同业...

Hadoop配置LZO压缩

相关文章

git常用命令

大数据平台袋鼠云托管运维与自建集群运维对比

MySQL 官方高可用方案：Innodb ReplicaSet

Debezium抽取SQL Server同步kafka

SQL Server优化入门系列（四）—— 找到Top SQL

MySQL的数据拆分

发表评论

©Copyrights 2016-2022 YUNCHE 浙ICP备2021017017号

Hadoop配置LZO压缩

相关文章

git常用命令

大数据平台袋鼠云托管运维与自建集群运维对比

MySQL 官方高可用方案：Innodb ReplicaSet

Debezium抽取SQL Server同步kafka

SQL Server优化入门系列（四）—— 找到Top SQL

MySQL的数据拆分

发表评论 取消回复

©Copyrights 2016-2022 YUNCHE 浙ICP备2021017017号var _hmt = _hmt || [];(function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?dcf8139ce75b768b71dccc5e589b983c"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s);})();

发表评论

©Copyrights 2016-2022 YUNCHE 浙ICP备2021017017号