数仓主流架构简介之二

楼高1年前技术文章746

一、流批一体

数据批流一体是一种云计算架构模式,它结合了批处理和流处理的特点,以实现更高效、灵活和可扩展的数据处理能力。在这种模式下,数据可以同时进行批处理和流处理,以满足不同场景下的需求

image.png

流批一体:是指将流式处理和批处理统一在一个运行时框架中,进行一体化的处理。

1、实时数据流和历史数据批量处理可以使用同一组数据处理工具和技术,例如Apache Spark、Apache Flink等。流批一体架构可以将实时数据和历史数据进行统一的处理和分析,以简化数据处理的复杂性和提高数据处理的效率。

2、实时数据流和历史数据批量处理可以使用同一套数据处理代码。这意味着,数据处理人员可以使用同一种编程语言、框架和工具来处理实时数据和历史数据。这样可以减少数据处理人员的学习和使用成本,并提高数据处理的效率和精度。

3、实时数据和历史数据存储在同一套数据存储系统中,这样可以简化数据存储的管理和维护,并提高数据的可用性和可靠性。

综述:流批一体是一种将流数据处理和批数据处理整合在一起的数据处理架构,它可以简化数据处理的复杂性和提高数据处理的效率。流批一体架构可以在实时数据处理和历史数据批量处理之间实现无缝切换,以满足不同的数据处理需求。主要使用Spark,Flink等。

二、湖仓一体

image.png

数据湖解决了Kappa架构痛点

利用存储替换Kappa架构中的消息队列,保证数据高效回溯能力。

支持读写分离,支持Streaming read,可以在系统的中间层做流批任务,把中间结果输出到下游,中间层支持 OLAP 分析。

支持SQL查询,支持添加、删除、更新数据。

统一元数据管理和数据生命周期管理。

image.png

相关文章

两款方案详解,企业线下数据库迁移至云上ScyllaDB(2)

方案二通过在集群中添加新数据中心的方式,进行数据迁移。然后下线集群老的数据中心。1. 集群添加新数据中心1.1. 先决条件收集现有集群信息:cat /etc/scylla...

Hdfs3.x新特性详解

Hdfs3.x新特性详解

HDFS Disk Balancer(磁盘均衡器)HDFS Disk Balancer与HDFS Balancer的区别?两者都是实现负载均衡功能HDFS Balancer是之前Hadoop2.x中本...

stress压测工具

1、stress 概述stress是一个linux的压力测试工具,主要用来模拟系统负载较高时的场景,用于对系统的CPU、IO、内存、负载、磁盘等进行压力测试2、安装yum install -y epe...

ElasticSearch开启xpack

ElasticSearch开启xpack

ES开启xpack1、生成ca证书(用户名和密码不用设置,一路回车,生成证书文件elastic-stack-ca.p12,生成kibana证书的时候也需要该ca证书)/opt/dtstack/es-6...

Flume使用案例之Flume与Flume之间数据传递(单Flume多Channel、Sink)

目标:使用flume1监控文件变动,flume1将变动内容传递给flume-2,flume-2负责存储到HDFS。同时flume1将变动内容传递给flume-3,flume-3负责输出到local分步...

MySQL运维实战之备份和恢复(8.7)将数据库恢复到指定时间点的另外一种方法

使用mysql原生复制功能实现时间点恢复使用mysqlbinlog解析并执行binlog是实现mysql时间点恢复的一种常用的方法。这里提供另外一种实现时间点恢复的方法:使用mysql的复制功能来实现...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。