元数据管理
一、元数据概念
元数据是关于数据的数据,主要用于跟踪、分类和分析。元数据大致定义为提供有关其他内容的信
息的数据,但不提供有关数据实质的信息,例如图片本身或文本消息的内容。它可以帮助用户理解
数据的含义,对于确保遵守法规和数据治理计划至关重要。元数据提供数据的来源、含义、位置、
所有权和创建等信息。例如,数字图像中的元数据可能包含其大小、分辨率、创建时间和颜色深度
等信息。它有助于数据的分类、组织、标记、排序和搜索。元数据存储库是存储和管理元数据的数
据库。应向数据库提供内容,以确保按预期使用并适当识别内容,例如,数字图像集合的数据库。
二、元数据功能
元数据是关于数据的数据,它实质上封装了高度结构化字段中有关数据资产的不同属性、历史记录、
来源、版本和其他信息,主
要用于跟踪、分类和分析。不论是否为结构化数据,还是非结构化数据,甚至是数据湖的数据,都
需要对数据进行管理,比如
(1)数据什么时候到
(2)属于哪个业务领域、哪个部门的数据
(3)来自哪个系统、哪个应用
(4)基本度量
(5)Schema
(6)Format
三、元数据治理范围
元数据管理涉及到数据治理、Lineage、监控、业务信息、访问控制、审计、合规、可视化、数据
标准、数据质量、版本控制、计算作业、发布管理、计量计费、告警等方方面面。关系到企业如何
有序地、高效地、稳定地、弹性地、智能地运行。虽然Haddop生态基本上用HCatalog来存储元数
据,但仅仅存储是不够的,对于整个企业而言是非常局限的。一个字段名及其语义标签在一个企业
中存在多种表达,而内容本质上却是一个在企业数据的整个架构下,远不止纯粹数据层面的元数据
信息需要整合管理,还包括各种其它对象,如UDF(Kylin、Hive、Flink、Spark、Storm、
Phoenix等)、作业(Flink、Storm、Spark等)、集群、业务要素等,这样才能更充分、高效、
系统、完整地保障企业的运行效率。对于作业,更理想的开发和使用方式应当是配置的,而剩下的
事情交由平台完成,这样才能使用户以更加一致的、统一的、低成本的、可追溯的方式来执行所需
的计算任务,而这离不开针对作业的元数据管理。因此,需要一个独立的、统一的元数据管理平台。
四、开源元数据治理工具Apache Atlas
1、Atlas是针对Hadoop生态的元数据管理工具,以基于HBase的JranusGraph作为存储,Solr
用作搜索
2、Atlas用Hook感知Hive/Kafka/HBase/Storm/Sqoop的元数据的变化,但是没有Flink
和Pulsar,不过可以定制
3、Atlas支持HA高可用
4、Atlas还提供了REST API来从Atalas查询和搜索
安全方面,Atlas支持双向SSL、Kerberos、JAAS(Kafka需要)
Atlas架构: