大数据平台之数据存储

米饭3个月前行业资讯311

1.大数据生态技术

数据存储处理: 清洗, 关联, 规范化, 组织建模, 通过数据质量的检测, 数据分析然后提供相应的数据服务

在这里插入图片描述

离线数仓:

在这里插入图片描述

实时数仓:

在这里插入图片描述

以Kafka, cancal/Maxwell/FlinkCdc为区分, 离线数仓为Hive, Sqoop

实时数仓:分层: Ods, Dwd, Dim, Dwm, Dws, Ads
离线数仓分层: Ods. Dwd, Dws, Dwt, Ads

实时数仓分层分析:

在这里插入图片描述

数据存储: Mysql. HDFS. HBase, KUDU, TiDB

数据计算: Spark, Flink, MapReduce, Tez, Hive, Storm

交互式查询: Impala, Presto

在线实时分析: ClickHouse, Kylin, Doris, Druid, kudu

资源调度: Yarn, k8s, Mesos

任务调度: Oozie, Azakaban, AirFlow, DolphinScheduler(离线)

数据监控: Zabbix(离线), Prometheus(实时)

数据治理, 元数据管理: Atlas

数据地图, 数据可视化: DataV, QuickBI, Echarts, Superset(离线), Hue, Sugar(实时)

数据采集传输: Flume, Kafka, Sqoop, Logstash, DataX

服务协调: Zookeeper

数据同步: Maxwall, Canal, FlinkCDC, Debezium

数据迁移, 数据收集: Flume, Canal, Sqoop, DataX, Waterdrop

部署运维: Ambari, Saltstack

安全框架: Ranger, Kerberos, Sentry

大数据平台: HDP, CDH, CDP

数据湖: Hudi, Icebery

数据血缘: Spark


数据资产, 数据中台


在这里插入图片描述

2.数据存储

在整个大数据生态圈里,数据存储可以分为两大类:


1、是直接以文件形式存放在分布式文件系统上,处理工具可以直接读写 (Hive 和SparkSQL 都是这类)。


2、通过kafak存储实时数据,经过实时计算框架最后把指标数据利用NoSQL数据库来存储和管理数据(NOSQL数据库Hbase之类)。


3.数据存储的发展

数据库 -> 数据仓库 -> 数据湖


数据仓库存储结构化数据(先处理后存储)。

数据湖存储原始数据(先存储后处理)。

3.1 数据仓库

数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的,不可修改的数据集合。


1、所谓主题:要把不同业务系统的数据同步到一个统一的数据仓库中,然后按照主题域方式组织数据。主题可以把它理解为数据仓库的一个目录。


2、所谓集成:是指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总的过程,因此数据仓库中的信息是关于整个企业的一致的全局信息。


3、所谓随时间变化:是指数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。


简而言之,它综合多个业务系统数据,主要用于历史性、综合性和深层次数据分析。


在了解数据仓库之后,不得不提下经典的两个数仓建模技术。


恩门提出的建模方法自顶向下(这里的顶是指数据的来源,在传统数据仓库中,就是各个业务数据库),基于业务中各个实体以及实体之间的关系,构建数据仓库。


金博尔建模与恩门正好相反,是一种自底向上的模型设计方法,从数据分析的需求出发,拆分维度和事实。那么用户、商品就是维度,库存、用户账户余额是事实。


这两种方法各有优劣,恩门建模因为是从数据源开始构建,构建成本比较高,适用于应用场景比较固定的业务,比如金融领域,冗余数据少是它的优势。金博尔建模由于是从分析场景出发,适用于变化速度比较快的业务,比如互联网业务。


3.2 数据湖

数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统。

在这里插入图片描述

其构建组件基于Hadoop进行存储。


简而言之,数据湖原始数据统一存放在HDFS系统上,引擎以Hadoop和Spark,Flink开源生态为主,存储和计算一体。


4.数据存储的方式

4.1 批处理的数据存储

HDFS分布式文件系统


HDFS提供了一个高容错性和高吞吐量的海量数据存储解决方案。


在这里插入图片描述

离线数据一般基于HDFS分布式文件系统作为数据仓库。


4.2 实时处理的数据存储

实时处理的数据为无界流数据,因此分为原数据存储和数据处理后的存储。


原始数据: 用户行为数据, 日志数据, 爬虫数据(ADS)


数据处理后数据: Hbase, Redis, ES, Mysql(用户行为数据) -> 报表系统, 用户画像, 机器学习, 推荐系统, 数据可视化


本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!  

云掣基于多年在运维领域的丰富时间经验,编写了《云运维服务白皮书》,欢迎大家互相交流学习:

《云运维服务白皮书》下载地址:https://fs80.cn/v2kbbq

想了解更多大数据运维托管服务、数据库运维托管服务、应用系统运维托管服务的的客户,欢迎点击云掣官网沟通咨询:https://yunche.pro/?t=shequ


相关文章

Docker:容器化和虚拟化

Docker:容器化和虚拟化

虚拟化虚拟化是一种资源管理技术,它将计算机的各种实体资源(如CPU、内存、磁盘空间、网络适配器等)予以抽象、转换后呈现出来,并可供分割、组合为一个或多个电脑配置环境。这些资源的新虚拟部分是不受现有资源...

Linux CGroup资源限制(概念&限制进程CPU使用)

Linux CGroup资源限制(概念&限制进程CPU使用)

Linux CGroup资源限制(详解)最近客户认为我们程序占用cpu过高,希望我们限制,排查之后发现是因为程序频繁gc导致,为了精细化、灵活的的限制,想到了使用Linux CGroup。0...

MyBatisPlus从零到一:快速入门与核心功能详解(1)

MyBatisPlus从零到一:快速入门与核心功能详解(1)

一、快速入门1.1 引入依赖:MybatisPlus 提供了 starter,实现了自动 Mybatis 以及MybatisPlus 的自动装配功能,坐标如下:<dependency>...

容器部署解决方案Docker

容器部署解决方案Docker

前言:Docker容器就是:一个镜像格式;一系列标准操作;一个执行环境。1、容器技术      容器则是直接运行在操作系统内核之上的用户空间。因此,容器虚拟化也被称为“操...

【Docker 】深入探索 Docker :容器健康检查与安全扫描

【Docker 】深入探索 Docker :容器健康检查与安全扫描

在现代容器化应用的开发与部署过程中,确保服务的可用性和安全性至关重要。本文将探讨容器的健康检查和安全扫描,并分享最佳实践。一、容器健康检查1.1 健康检查的作用健康检查是确保服务在运行时处于可用状态的...

如何重塑IT运维核心竞争力?可观测运维这么做!

如何重塑IT运维核心竞争力?可观测运维这么做!

随着云计算、大数据、人工智能等新兴技术的兴起及运用,无论是通讯、金融、教育,还是交通、政府、企业等行业,都得到飞速发展,但在高速发展的同时,各行业巨大的 IT 维护和管理成本也在与日俱增,存在监控工具...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。