元数据管理

楼高1年前技术文章579

一、元数据概念

元数据是关于数据的数据,主要用于跟踪、分类和分析。元数据大致定义为提供有关其他内容的信

息的数据,但不提供有关数据实质的信息,例如图片本身或文本消息的内容。它可以帮助用户理解

数据的含义,对于确保遵守法规和数据治理计划至关重要。元数据提供数据的来源、含义、位置、

所有权和创建等信息。例如,数字图像中的元数据可能包含其大小、分辨率、创建时间和颜色深度

等信息。它有助于数据的分类、组织、标记、排序和搜索。元数据存储库是存储和管理元数据的数

据库。应向数据库提供内容,以确保按预期使用并适当识别内容,例如,数字图像集合的数据库。

二、元数据功能

元数据是关于数据的数据,它实质上封装了高度结构化字段中有关数据资产的不同属性、历史记录、

来源、版本和其他信息,主

要用于跟踪、分类和分析。不论是否为结构化数据,还是非结构化数据,甚至是数据湖的数据,都

需要对数据进行管理,比如

(1)数据什么时候到

(2)属于哪个业务领域、哪个部门的数据

(3)来自哪个系统、哪个应用

(4)基本度量

(5)Schema

(6)Format

三、元数据治理范围

元数据管理涉及到数据治理、Lineage、监控、业务信息、访问控制、审计、合规、可视化、数据

标准、数据质量、版本控制、计算作业、发布管理、计量计费、告警等方方面面。关系到企业如何

有序地、高效地、稳定地、弹性地、智能地运行。虽然Haddop生态基本上用HCatalog来存储元数

据,但仅仅存储是不够的,对于整个企业而言是非常局限的。一个字段名及其语义标签在一个企业

中存在多种表达,而内容本质上却是一个在企业数据的整个架构下,远不止纯粹数据层面的元数据

信息需要整合管理,还包括各种其它对象,如UDF(Kylin、Hive、Flink、Spark、Storm、

Phoenix等)、作业(Flink、Storm、Spark等)、集群、业务要素等,这样才能更充分、高效、

系统、完整地保障企业的运行效率。对于作业,更理想的开发和使用方式应当是配置的,而剩下的

事情交由平台完成,这样才能使用户以更加一致的、统一的、低成本的、可追溯的方式来执行所需

的计算任务,而这离不开针对作业的元数据管理。因此,需要一个独立的、统一的元数据管理平台。


四、开源元数据治理工具Apache Atlas 

1、Atlas是针对Hadoop生态的元数据管理工具,以基于HBase的JranusGraph作为存储,Solr

用作搜索

2、Atlas用Hook感知Hive/Kafka/HBase/Storm/Sqoop的元数据的变化,但是没有Flink

和Pulsar,不过可以定制

3、Atlas支持HA高可用

4、Atlas还提供了REST API来从Atalas查询和搜索

安全方面,Atlas支持双向SSL、Kerberos、JAAS(Kafka需要)

Atlas架构:

image.png

相关文章

Clickhouse MergeTree原理(二)—— 表和分区的维护

MergeTree是Clickhouse中最核心的存储引擎。上一篇文章中,我们介绍了MergeTree的基本结构。1、MergeTree由分区(partiton)和part组成。2、Part是Merg...

添加环境变量的两种方式

添加环境变量的两种方式

添加环境变量的几种方式:1.添加当前用户的PATH环境变量,作用范围仅限于当前用户修改用户目录下的 .bashrc修改后立即生效。vim ~/.bashrc2.添加所有用户的PATH环境变量,适用于所...

Dockerfile全面指南:从基础到进阶,掌握容器化构建的核心工具

Dockerfile全面指南:从基础到进阶,掌握容器化构建的核心工具

引言        Dockerfile 是构建 Docker 镜像的核心文件。它定义了如何将应用程序及其依赖打包成一个可以跨平台运行的容器。本篇博客将从基础概...

hbase无法执行脚本停止服务问题分析

hbase无法执行脚本停止服务问题分析

问题现象:hbase执行stop-hbase.sh无法停止hbase进程定位过程:1.     执行脚本发现脚本在执行了停止命令后一直在循环查询hbase状态2...

doris-manager部署doris

doris-manager部署doris

1.下载Doris安装包登陆地址https://doris.apache.org/download选择需要下载的版本,这里选择2.0.2 source版本2.部署cluster manager(1)下...

MySQL 异常:max key length is 767 bytes

MySQL 异常:max key length is 767 bytes

前言最近迁移几张表,又遇到 767 异常,迁移前只检查了 sql_mode 忽略对比了这个参数,导致几张表创建失败,其实解决方法也很简单,开启 innodb_large_prefix 参数重新导入即可...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。