数据湖技术之iceberg(二)iceberg的特点

南墨1年前技术文章1844

1  Iceberg的概念及特点

Apache Iceberg是一种用于大型数据分析场景的开放表格式(Table Format)。Iceberg使用一种类似于SQL表的高性能表格式,Iceberg格式表单表可以存储数十PB数据,适配Spark、Trino、PrestoDB、Flink和Hive等计算引擎提供高性能的读写和元数据管理功能,Iceberg是一种数据湖解决方案。

注意:Trino就是原来的PrestoSQL ,2020年12月27日,PrestoSQL 项目更名为Trino,Presto分成两大分支:PrestoDB、PrestorSQL。

Iceberg非常轻量级,可以作为lib与Spark、Flink进行集成

Iceberg官网:https://iceberg.apache.org/

Iceberg具备以下特点:

l   Iceberg支持实时/批量数据写入和读取,支持Spark/Flink计算引擎。

l   Iceberg支持事务ACID,支持添加、删除、更新数据。

l   不绑定任何底层存储,支持Parquet、ORC、Avro格式兼容行存储和列存储。

l   Iceberg支持隐藏分区和分区变更,方便业务进行数据分区策略。

l   Iceberg支持快照数据重复查询,具备版本回滚功能。

l   Iceberg扫描计划很快,读取表或者查询文件可以不需要分布式SQL引擎。

l   Iceberg通过表元数据来对查询进行高效过滤。

l   基于乐观锁的并发支持,提供多线程并发写入能力并保证数据线性一致。


相关文章

hbase无法执行脚本停止服务问题分析

hbase无法执行脚本停止服务问题分析

问题现象:hbase执行stop-hbase.sh无法停止hbase进程定位过程:1.     执行脚本发现脚本在执行了停止命令后一直在循环查询hbase状态2...

hive元数据操作

1.查看hive从超过5000分区的表select dbs.name, tbls.TBL_NAME, count(1) as part_count from dbs, tbls, partitions...

Nginx-Ingress和traefik区别

Nginx-Ingress和traefik区别

Nginx-Ingress和traefik区别1. Ingress Controllerk8s 是通过一个又一个的 controller 来负责监控、维护集群状态。Ingress Controller...

linux时间同步工具Chrony的配置和使用

linux时间同步工具Chrony的配置和使用

一、chrony简介       chronony是网络时间协议(NTP)的通用实现。它可以同步系统时钟与NTP服务器,chronyd包含两个程序,chronyd是一个守护进程,chronyc是一个命...

Hive压测之开源Hive基准测试工具(hive-testbench-hive14)

Hive压测之开源Hive基准测试工具(hive-testbench-hive14)

此文章禁止转载概述Hive基准测试工具工具,可用来造数测试Hive基本性能。TPC-DS:提供一个公平和诚实的业务和数据模型,99个案例TPC-H:面向商品零售业的决策支持系统测试基准,定义了8张表,...

Prometheus与Zabbix的对比

一、Prometheus与Zabbix的对比对比项PrometheusZabbixPrometheus优势Zabbix优势管理二进制文件启动LNMP+编译轻量级Server,便于迁移和维护-配置配置文...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。