ORC、Parquet 等列式存储的优点

南墨2年前 (2023-12-25)技术文章1078

ORC 和Parquet 都是高性能的存储方式，这两种存储格式总会带来存储和性能上的提升

Parquet:

1. Parquet 支持嵌套的数据模型，类似于Protocol Buffers，每一个数据模型的schema 包含多个字段，每一个字段有三个属性：重复次数、数据类型和字段名。重复次数可以是以下三种：required(只出现1 次)，repeated(出现0 次或多次)，optional(出现0 次或1 次)。每一个字段的数据类型可以分成两种：group(复杂类型)和primitive(基本类型)。

2. Parquet 中没有Map、Array 这样的复杂数据结构，但是可以通过repeated和group 组合来实现的。

3. 由于Parquet 支持的数据模型比较松散，可能一条记录中存在比较深的嵌套关系，如果为每一条记录都维护一个类似的树状结可能会占用较大的存储空间，因此Dremel 论文中提出了一种高效的对于嵌套数据格式的压缩算法：Striping/Assembly 算法。通过Striping/Assembly 算法，parquet 可以使用较少的存储空间表示复杂的嵌套格式，并且通常Repetition level 和Definition level 都是较小的整数值，可以通过RLE 算法对其进行压缩，进一步降低存储空间。

4. Parquet 文件是以二进制方式存储的，是不可以直接读取和修改的，Parquet文件是自解析的，文件中包括该文件的数据和元数据。