数据湖技术之iceberg(二)iceberg的特点

南墨2年前技术文章2801

1  Iceberg的概念及特点

Apache Iceberg是一种用于大型数据分析场景的开放表格式(Table Format)。Iceberg使用一种类似于SQL表的高性能表格式,Iceberg格式表单表可以存储数十PB数据,适配Spark、Trino、PrestoDB、Flink和Hive等计算引擎提供高性能的读写和元数据管理功能,Iceberg是一种数据湖解决方案。

注意:Trino就是原来的PrestoSQL ,2020年12月27日,PrestoSQL 项目更名为Trino,Presto分成两大分支:PrestoDB、PrestorSQL。

Iceberg非常轻量级,可以作为lib与Spark、Flink进行集成

Iceberg官网:https://iceberg.apache.org/

Iceberg具备以下特点:

l   Iceberg支持实时/批量数据写入和读取,支持Spark/Flink计算引擎。

l   Iceberg支持事务ACID,支持添加、删除、更新数据。

l   不绑定任何底层存储,支持Parquet、ORC、Avro格式兼容行存储和列存储。

l   Iceberg支持隐藏分区和分区变更,方便业务进行数据分区策略。

l   Iceberg支持快照数据重复查询,具备版本回滚功能。

l   Iceberg扫描计划很快,读取表或者查询文件可以不需要分布式SQL引擎。

l   Iceberg通过表元数据来对查询进行高效过滤。

l   基于乐观锁的并发支持,提供多线程并发写入能力并保证数据线性一致。


相关文章

trino组件对接alluxio(三)

trino组件对接alluxio(三)

本文是基于已经部署了trino和alluxio的基础上,进行的trino与alluxio的组件对接,alluxio已经开启了高可用模式。安装部署1、增加alluxio配置在core-site.xml和...

企业级大数据安全架构(八)

企业级大数据安全架构(八)

前面第七章详细介绍了部署FreeIPA来做kerberos认证,这节接着介绍FreeIPA高可用部署1.FreeIPA高可用配置说明:在安装完一台ipa-server之后,在另一个备份节点部署ipa-...

大数据集群监控配置操作指导(一)prometheus+grafana部署

大数据集群监控配置操作指导(一)prometheus+grafana部署

1.prometheus+grafana部署(单独部署到一台服务器。4c8g。系统盘300G。操作系统建议7.6到7.9)1.1下载prometheus和grafana的二进制包mkdir /opt/...

Linux高并发FastCGI优化

nginx中FastCGI相关参数优化:1)这个指令为FastCGI缓存指定一个路径,目录结构等级,关键字区域存储时间和非活动删除时间。fastcgi_cache_path /usr/local/ng...

PG的表膨胀

1 什么是表膨胀众所周知,PostgreSQL的多版本并发是通过保留变更前的记录来实现的。当数据记录被DML修改,旧版本记录仍保留不变,仅仅需要修改相关记录的xmin、xmax属性,并新增写入变更后的...

image.png

VMware Vsphere创建虚拟机

一、上传系统镜像打开数据中心 2、新建文件夹,存放镜像3、点击上传文件按钮    4、找到本地镜像上传二、安装虚拟机1、创建虚拟机 2、选择创建类型 3、为虚拟机命名并选择虚拟机安装的所在位置4、选择...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。