元数据管理

楼高2年前技术文章823

一、元数据概念

元数据是关于数据的数据,主要用于跟踪、分类和分析。元数据大致定义为提供有关其他内容的信

息的数据,但不提供有关数据实质的信息,例如图片本身或文本消息的内容。它可以帮助用户理解

数据的含义,对于确保遵守法规和数据治理计划至关重要。元数据提供数据的来源、含义、位置、

所有权和创建等信息。例如,数字图像中的元数据可能包含其大小、分辨率、创建时间和颜色深度

等信息。它有助于数据的分类、组织、标记、排序和搜索。元数据存储库是存储和管理元数据的数

据库。应向数据库提供内容,以确保按预期使用并适当识别内容,例如,数字图像集合的数据库。

二、元数据功能

元数据是关于数据的数据,它实质上封装了高度结构化字段中有关数据资产的不同属性、历史记录、

来源、版本和其他信息,主

要用于跟踪、分类和分析。不论是否为结构化数据,还是非结构化数据,甚至是数据湖的数据,都

需要对数据进行管理,比如

(1)数据什么时候到

(2)属于哪个业务领域、哪个部门的数据

(3)来自哪个系统、哪个应用

(4)基本度量

(5)Schema

(6)Format

三、元数据治理范围

元数据管理涉及到数据治理、Lineage、监控、业务信息、访问控制、审计、合规、可视化、数据

标准、数据质量、版本控制、计算作业、发布管理、计量计费、告警等方方面面。关系到企业如何

有序地、高效地、稳定地、弹性地、智能地运行。虽然Haddop生态基本上用HCatalog来存储元数

据,但仅仅存储是不够的,对于整个企业而言是非常局限的。一个字段名及其语义标签在一个企业

中存在多种表达,而内容本质上却是一个在企业数据的整个架构下,远不止纯粹数据层面的元数据

信息需要整合管理,还包括各种其它对象,如UDF(Kylin、Hive、Flink、Spark、Storm、

Phoenix等)、作业(Flink、Storm、Spark等)、集群、业务要素等,这样才能更充分、高效、

系统、完整地保障企业的运行效率。对于作业,更理想的开发和使用方式应当是配置的,而剩下的

事情交由平台完成,这样才能使用户以更加一致的、统一的、低成本的、可追溯的方式来执行所需

的计算任务,而这离不开针对作业的元数据管理。因此,需要一个独立的、统一的元数据管理平台。


四、开源元数据治理工具Apache Atlas 

1、Atlas是针对Hadoop生态的元数据管理工具,以基于HBase的JranusGraph作为存储,Solr

用作搜索

2、Atlas用Hook感知Hive/Kafka/HBase/Storm/Sqoop的元数据的变化,但是没有Flink

和Pulsar,不过可以定制

3、Atlas支持HA高可用

4、Atlas还提供了REST API来从Atalas查询和搜索

安全方面,Atlas支持双向SSL、Kerberos、JAAS(Kafka需要)

Atlas架构:

image.png

相关文章

Linux 文件锁

1、背景Linux 系统定时任务正在执行时,可能会遇到上个周期的任务还没有执行完,这样便会造成相同的任务同一时间有过个任务进程在执行。如果任务有对互斥资源操作时,有可能产生死锁。2、用法参考flock...

Hudi集成Spark

Hudi集成Spark

环境准备安装Spark1)Hudi支持的Spark版本HudiSupported Spark 3 version0.12.x3.3.x,3.2.x,3.1.x0.11.x3.2.x(default b...

MySQL运维实战(5.6) 字符集设置对mysqldump的影响

mysqldump不指定字符集不指定字符集时,默认使用了utf8。可能和环境有关系。mysqldump -uroot test test_load >&n...

MySQL 8.0 新特性:Persisted System Variables

MySQL 8.0 新特性:Persisted System Variables

一、前言MySQL 5.7 之前我们修改参数变量后,需要将其手动写入到服务端配置文件中,否则重启后又恢复原有的配置,在 8.0 中可以在 MySQL 客户端直接将参数持久化,节省在服务器操作的步骤,下...

greenplum安装配置

一、配置服务器安装环境1、修改服务器内核参数(所有节点)编辑sysctl.conf,需要设置共享内存Greenplum数据库使用共享内存在属于同一postgres实例的postgres进程之间进行通信...

ES部署以及扩容

ES部署以及扩容

单节点RPM包方式部署1、下载RPM包官网下载地址:Download Elasticsearch | Elastic默认下载的为最新版本,如果想要下载历史版本,点击此处查看历史版本此处安装ES7.X...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。