数据湖技术之iceberg(二)iceberg的特点

南墨2年前技术文章3616

1  Iceberg的概念及特点

Apache Iceberg是一种用于大型数据分析场景的开放表格式(Table Format)。Iceberg使用一种类似于SQL表的高性能表格式,Iceberg格式表单表可以存储数十PB数据,适配Spark、Trino、PrestoDB、Flink和Hive等计算引擎提供高性能的读写和元数据管理功能,Iceberg是一种数据湖解决方案。

注意:Trino就是原来的PrestoSQL ,2020年12月27日,PrestoSQL 项目更名为Trino,Presto分成两大分支:PrestoDB、PrestorSQL。

Iceberg非常轻量级,可以作为lib与Spark、Flink进行集成

Iceberg官网:https://iceberg.apache.org/

Iceberg具备以下特点:

l   Iceberg支持实时/批量数据写入和读取,支持Spark/Flink计算引擎。

l   Iceberg支持事务ACID,支持添加、删除、更新数据。

l   不绑定任何底层存储,支持Parquet、ORC、Avro格式兼容行存储和列存储。

l   Iceberg支持隐藏分区和分区变更,方便业务进行数据分区策略。

l   Iceberg支持快照数据重复查询,具备版本回滚功能。

l   Iceberg扫描计划很快,读取表或者查询文件可以不需要分布式SQL引擎。

l   Iceberg通过表元数据来对查询进行高效过滤。

l   基于乐观锁的并发支持,提供多线程并发写入能力并保证数据线性一致。


相关文章

Python 识别 MySQL 中的冗余索引

前言最近在搞标准化巡检平台,通过 MySQL 的元数据分析一些潜在的问题。冗余索引也是一个非常重要的巡检目,表中索引过多,会导致表空间占用较大,索引的数量与表的写入速度与索引数成线性关系(微秒级),如...

手动模拟 flannel 的 vxlan 实现节点命名空间互通

手动模拟 flannel 的 vxlan 实现节点命名空间互通

在flannel网络插件中实现两个节点互通方式有host-gw vxlan ipip等方式,之前已经手动模拟过host-gw模式,此处再模拟一下vxlan模式点对点访问。手动实验两个命名空间通信Nod...

大数据集群二次开发及调优使用指导(三)-Hive

大数据集群二次开发及调优使用指导(三)-Hive

1.   业务调优:Hive业务的业务主要以批量处理作业为主,批处理主要特点是耗时时间长,消耗的资源比较多,主要的调优和设计推荐如下:1.   &nb...

image.png

VMware Vsphere创建虚拟机

一、上传系统镜像打开数据中心 2、新建文件夹,存放镜像3、点击上传文件按钮    4、找到本地镜像上传二、安装虚拟机1、创建虚拟机 2、选择创建类型 3、为虚拟机命名并选择虚拟机安装的所在位置4、选择...

企业级大数据安全架构(十一)

企业级大数据安全架构(十一)

一、Kerberos接入dophinscheduler建议将dophinscheduler集成到Ambari安装部署,在Ambari上面开启kerberos1.安装准备编译从GitHub获取dolph...

CDH开启kerberos

CDH开启kerberos

1、依赖条件1、安装openldap-clients,krb5-workstations2、准备好kdcserver 或者AD2、操作步骤1、使用admin用户登录cm页面2、启用kerberos填写...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。