数据湖技术之iceberg(二)iceberg的特点

南墨2年前技术文章3812

1  Iceberg的概念及特点

Apache Iceberg是一种用于大型数据分析场景的开放表格式(Table Format)。Iceberg使用一种类似于SQL表的高性能表格式,Iceberg格式表单表可以存储数十PB数据,适配Spark、Trino、PrestoDB、Flink和Hive等计算引擎提供高性能的读写和元数据管理功能,Iceberg是一种数据湖解决方案。

注意:Trino就是原来的PrestoSQL ,2020年12月27日,PrestoSQL 项目更名为Trino,Presto分成两大分支:PrestoDB、PrestorSQL。

Iceberg非常轻量级,可以作为lib与Spark、Flink进行集成

Iceberg官网:https://iceberg.apache.org/

Iceberg具备以下特点:

l   Iceberg支持实时/批量数据写入和读取,支持Spark/Flink计算引擎。

l   Iceberg支持事务ACID,支持添加、删除、更新数据。

l   不绑定任何底层存储,支持Parquet、ORC、Avro格式兼容行存储和列存储。

l   Iceberg支持隐藏分区和分区变更,方便业务进行数据分区策略。

l   Iceberg支持快照数据重复查询,具备版本回滚功能。

l   Iceberg扫描计划很快,读取表或者查询文件可以不需要分布式SQL引擎。

l   Iceberg通过表元数据来对查询进行高效过滤。

l   基于乐观锁的并发支持,提供多线程并发写入能力并保证数据线性一致。


相关文章

Hive与HBase整合文档

Hive与HBase整合文档

1.Hive整合HBase配置1.拷贝hbase 相关jar包将hbase 相关jar包拷贝到hive lib目录下hbase-client-0.98.13-hadoop2.jar hbase-co...

nginx配置反向代理某个url

nginx配置反向代理某个url

本文讲的这个漏洞 主要是为了解决漏洞扫描的问题我先介绍下这个漏洞主要是因为访问https://172.16.120.17:18090/ws/v1/cluster/info这个 yarn rest的一个...

短信服务开通

短信服务开通

一、添加模版二、添加签名注意开通港澳台签名如果和国内签名冲突,需要修改国内签名 试用场景为通用,三、子账号授权新建RAM用户并创建AK信息提供 签名名称 以及模版CODE即可参考链接: https:/...

域名购买及备案

域名购买及备案

购买域名域名控制台 -- 域名列表 -- 注册域名注意域名购买时候域名系统中填写的持有者单位名称需与提交审核证件中的单位名称严格完全一致的模板认证中企业/组织相关材料及填写要求可参考此文档https:...

CDP实操--配置Hive/Impala的Ranger策略验证(二)

CDP实操--配置Hive/Impala的Ranger策略验证(二)

1.1Hive/impala的Ranger策略验证确保hive-on-tez的配置页面里已经勾选了“Ranger Service”在terminal中,kerberos登录到hive,用如下命令登录b...

EasyMR如何为服务开启Kerberos

EasyMR如何为服务开启Kerberos

一、Hadoop为什么需要安全最早部署Hadoop集群时并没有考虑安全问题,未开启安全认证时,Hadoop 是以客户端提供的用户名作为用户凭证, 一般即是发起任务的Unix 用户。一般线上机器部署服务...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。