ORC、Parquet 等列式存储的优点

南墨4个月前技术文章101

ORC 和Parquet 都是高性能的存储方式,这两种存储格式总会带来存储和性能上的提升

  • Parquet:

1. Parquet 支持嵌套的数据模型,类似于Protocol Buffers,每一个数据模型的schema 包含多个字段,每一个字段有三个属性:重复次数、数据类型和字段名。重复次数可以是以下三种:required(只出现1 次),repeated(出现0 次或多次),optional(出现0 次或1 次)。每一个字段的数据类型可以分成两种:group(复杂类型)和primitive(基本类型)。

2. Parquet 中没有Map、Array 这样的复杂数据结构,但是可以通过repeated和group 组合来实现的。

3. 由于Parquet 支持的数据模型比较松散,可能一条记录中存在比较深的嵌套关系,如果为每一条记录都维护一个类似的树状结可能会占用较大的存储空间,因此Dremel 论文中提出了一种高效的对于嵌套数据格式的压缩算法:Striping/Assembly 算法。通过Striping/Assembly 算法,parquet 可以使用较少的存储空间表示复杂的嵌套格式,并且通常Repetition level 和Definition level 都是较小的整数值,可以通过RLE 算法对其进行压缩,进一步降低存储空间。

4. Parquet 文件是以二进制方式存储的,是不可以直接读取和修改的,Parquet文件是自解析的,文件中包括该文件的数据和元数据。

  • ORC:

1. ORC 文件是自描述的,它的元数据使用Protocol Buffers 序列化,并且文件中的数据尽可能的压缩以降低存储空间的消耗。

2. 和Parquet 类似,ORC 文件也是以二进制方式存储的,所以是不可以直接读取,ORC 文件也是自解析的,它包含许多的元数据,这些元数据都是同构ProtoBuffer 进行序列化的。

3. ORC 会尽可能合并多个离散的区间尽可能的减少I/O 次数。

4. ORC 中使用了更加精确的索引信息,使得在读取数据时可以指定从任意一行开始读取,更细粒度的统计信息使得读取ORC 文件跳过整个row group,ORC默认会对任何一块数据和索引信息使用ZLIB 压缩,因此ORC 文件占用的存储空间也更小。

5. 在新版本的ORC 中也加入了对Bloom Filter 的支持,它可以进一步提升谓词下推的效率,在Hive 1.2.0 版本以后也加入了对此的支持。


相关文章

Kafka监控

1.监控健康状态为了了解 Kafka 的运作状态和性能状况需要对 Kafka 进行监控和诊断,通过Kafka提供的监控工具和插件可以诊断出 Kafka 的异常、错误、瓶颈和故障等问题并及时采取对应的措...

Tcpdump抓包总结

Tcpdump抓包总结

一、简介tcpdump是一个用于截取网络分组,并输出分组内容的工具。凭借强大的功能和灵活的截取策略,使其成为类UNIX系统下用于网络分析和问题排查的首选工具 tcpdump提供了源代码,公开了接口,因...

minio存储桶命名规则

存储桶命名规则创建S3存储桶后,无法更改存储桶名称,因此请明智地选择名称。重要在2018年3月1日,我们更新了美国东部(弗吉尼亚北部)地区S3存储桶的命名约定,以匹配我们在所有其他全球AWS区域中使用...

PG的analyze与vacuum

analyze-统计信息用于收集表的统计信息,只会对表加读锁,不影响表上其它SQL并发执行,对于大表只会读取表中部分数据 vacuum-碎片回收标记旧版本行的信息为可用,以重复使用这部分空间 更新统计...

Hbase&Hive区别对比

Hbase和Hive定义区别Hbase,其实是Hadoop database的简称,是一种NoSQL数据库,主要适用于海量明细数据(十亿、百亿)的随机实时查询,如日志明细、交易清单、轨迹行为等。Hiv...

CDP实操--配置RangerKMS 并基于Navigator Trustee Server存储KMS密钥

CDP实操--配置RangerKMS 并基于Navigator Trustee Server存储KMS密钥

1.1添加用于部署KMS的服务器到集群从集群host页面里添加两台服务器用于部署rangerkms选择kms-1和kms-2两台服务器等待parcel分发到新加服务器上并自动完成激活 等待host i...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。