数据湖技术之iceberg(二)iceberg的特点

南墨2年前技术文章3912

1  Iceberg的概念及特点

Apache Iceberg是一种用于大型数据分析场景的开放表格式(Table Format)。Iceberg使用一种类似于SQL表的高性能表格式,Iceberg格式表单表可以存储数十PB数据,适配Spark、Trino、PrestoDB、Flink和Hive等计算引擎提供高性能的读写和元数据管理功能,Iceberg是一种数据湖解决方案。

注意:Trino就是原来的PrestoSQL ,2020年12月27日,PrestoSQL 项目更名为Trino,Presto分成两大分支:PrestoDB、PrestorSQL。

Iceberg非常轻量级,可以作为lib与Spark、Flink进行集成

Iceberg官网:https://iceberg.apache.org/

Iceberg具备以下特点:

l   Iceberg支持实时/批量数据写入和读取,支持Spark/Flink计算引擎。

l   Iceberg支持事务ACID,支持添加、删除、更新数据。

l   不绑定任何底层存储,支持Parquet、ORC、Avro格式兼容行存储和列存储。

l   Iceberg支持隐藏分区和分区变更,方便业务进行数据分区策略。

l   Iceberg支持快照数据重复查询,具备版本回滚功能。

l   Iceberg扫描计划很快,读取表或者查询文件可以不需要分布式SQL引擎。

l   Iceberg通过表元数据来对查询进行高效过滤。

l   基于乐观锁的并发支持,提供多线程并发写入能力并保证数据线性一致。


相关文章

大数据监控系列(一)——Prometheus+Grafana监控概述

大数据监控系列(一)——Prometheus+Grafana监控概述

1 概述这是介绍Prometheushe和Grafana主要是为了监控大数据产品,数栈平台也是使用Prometheushe+Grafana作为底层大数据组件的监控,并且均有配置模板,导入即在Grafa...

企业级大数据安全架构(九)

企业级大数据安全架构(九)

一、FreeIPA管理员密码忘记后如何修改1.1重置Directory Server管理员密码1.1.1停止directory server服务[root@ipa schema]# start-dir...

fio磁盘io压测

fio磁盘io压测

fio tar包地址:https://brick.kernel.dk/snaps/yum 安装gcc、fio使用到的ibaio-devel 引擎yum install -y gcc yum inst...

dbms_support包跟踪10046

系统默认没有安装dbms_support这个包,可以手动执行$ORACLE_HOME/rdbms/admin/dbmssupp.sql脚本来创建该包。安装dbms_support包: SQL>...

MySQL 8.0 不可见索引使用

一、具体信息1、在提供 SQL 优化意见的时候包括了两个冗余索引的内容,具体内容如下:查看慢 SQL 的时候发现 database 库 table 表中存在冗余索引,具体冗余索引情况如下:KEY `k...

开源大数据集群部署(二十)Trino部署

开源大数据集群部署(二十)Trino部署

2.9.1 解压trino的包到opt目录cd /root/bigdata tar -xzvf trino-server-389.tar.gz -C /opt/ ln -s /opt/trino-...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。