数据湖技术之iceberg（二）iceberg的特点

南墨2年前 (2023-04-19)技术文章3912

1 Iceberg的概念及特点

Apache Iceberg是一种用于大型数据分析场景的开放表格式（Table Format）。Iceberg使用一种类似于SQL表的高性能表格式，Iceberg格式表单表可以存储数十PB数据，适配Spark、Trino、PrestoDB、Flink和Hive等计算引擎提供高性能的读写和元数据管理功能，Iceberg是一种数据湖解决方案。

注意：Trino就是原来的PrestoSQL ,2020年12月27日，PrestoSQL 项目更名为Trino，Presto分成两大分支：PrestoDB、PrestorSQL。

Iceberg非常轻量级，可以作为lib与Spark、Flink进行集成

Iceberg官网：https://iceberg.apache.org/

Iceberg具备以下特点：

l Iceberg支持实时/批量数据写入和读取，支持Spark/Flink计算引擎。

l Iceberg支持事务ACID,支持添加、删除、更新数据。

l 不绑定任何底层存储，支持Parquet、ORC、Avro格式兼容行存储和列存储。

l Iceberg支持隐藏分区和分区变更，方便业务进行数据分区策略。

l Iceberg支持快照数据重复查询，具备版本回滚功能。

l Iceberg扫描计划很快，读取表或者查询文件可以不需要分布式SQL引擎。

l Iceberg通过表元数据来对查询进行高效过滤。

l 基于乐观锁的并发支持，提供多线程并发写入能力并保证数据线性一致。

返回列表

上一篇：数据湖技术之iceberg（一）数据湖的概念

下一篇：数据湖技术之iceberg（三）Iceberg数据存储格式

相关文章

大数据监控系列（一）——Prometheus+Grafana监控概述

大数据监控系列（一）——Prometheus+Grafana监控概述

1 概述这是介绍Prometheushe和Grafana主要是为了监控大数据产品，数栈平台也是使用Prometheushe+Grafana作为底层大数据组件的监控，并且均有配置模板，导入即在Grafa...

企业级大数据安全架构（九）

企业级大数据安全架构（九）

一、FreeIPA管理员密码忘记后如何修改1.1重置Directory Server管理员密码1.1.1停止directory server服务[root@ipa schema]# start-dir...

fio磁盘io压测

fio磁盘io压测

fio tar包地址：https://brick.kernel.dk/snaps/yum 安装gcc、fio使用到的ibaio-devel 引擎yum install -y gcc yum inst...

dbms_support包跟踪10046

系统默认没有安装dbms_support这个包，可以手动执行$ORACLE_HOME/rdbms/admin/dbmssupp.sql脚本来创建该包。安装dbms_support包： SQL>...

MySQL 8.0 不可见索引使用

一、具体信息1、在提供 SQL 优化意见的时候包括了两个冗余索引的内容，具体内容如下：查看慢 SQL 的时候发现 database 库 table 表中存在冗余索引，具体冗余索引情况如下：KEY `k...

开源大数据集群部署（二十）Trino部署

开源大数据集群部署（二十）Trino部署

2.9.1 解压trino的包到opt目录cd /root/bigdata tar -xzvf trino-server-389.tar.gz -C /opt/ ln -s /opt/trino-...

发表评论