元数据管理

楼高11个月前技术文章366

一、元数据概念

元数据是关于数据的数据,主要用于跟踪、分类和分析。元数据大致定义为提供有关其他内容的信

息的数据,但不提供有关数据实质的信息,例如图片本身或文本消息的内容。它可以帮助用户理解

数据的含义,对于确保遵守法规和数据治理计划至关重要。元数据提供数据的来源、含义、位置、

所有权和创建等信息。例如,数字图像中的元数据可能包含其大小、分辨率、创建时间和颜色深度

等信息。它有助于数据的分类、组织、标记、排序和搜索。元数据存储库是存储和管理元数据的数

据库。应向数据库提供内容,以确保按预期使用并适当识别内容,例如,数字图像集合的数据库。

二、元数据功能

元数据是关于数据的数据,它实质上封装了高度结构化字段中有关数据资产的不同属性、历史记录、

来源、版本和其他信息,主

要用于跟踪、分类和分析。不论是否为结构化数据,还是非结构化数据,甚至是数据湖的数据,都

需要对数据进行管理,比如

(1)数据什么时候到

(2)属于哪个业务领域、哪个部门的数据

(3)来自哪个系统、哪个应用

(4)基本度量

(5)Schema

(6)Format

三、元数据治理范围

元数据管理涉及到数据治理、Lineage、监控、业务信息、访问控制、审计、合规、可视化、数据

标准、数据质量、版本控制、计算作业、发布管理、计量计费、告警等方方面面。关系到企业如何

有序地、高效地、稳定地、弹性地、智能地运行。虽然Haddop生态基本上用HCatalog来存储元数

据,但仅仅存储是不够的,对于整个企业而言是非常局限的。一个字段名及其语义标签在一个企业

中存在多种表达,而内容本质上却是一个在企业数据的整个架构下,远不止纯粹数据层面的元数据

信息需要整合管理,还包括各种其它对象,如UDF(Kylin、Hive、Flink、Spark、Storm、

Phoenix等)、作业(Flink、Storm、Spark等)、集群、业务要素等,这样才能更充分、高效、

系统、完整地保障企业的运行效率。对于作业,更理想的开发和使用方式应当是配置的,而剩下的

事情交由平台完成,这样才能使用户以更加一致的、统一的、低成本的、可追溯的方式来执行所需

的计算任务,而这离不开针对作业的元数据管理。因此,需要一个独立的、统一的元数据管理平台。


四、开源元数据治理工具Apache Atlas 

1、Atlas是针对Hadoop生态的元数据管理工具,以基于HBase的JranusGraph作为存储,Solr

用作搜索

2、Atlas用Hook感知Hive/Kafka/HBase/Storm/Sqoop的元数据的变化,但是没有Flink

和Pulsar,不过可以定制

3、Atlas支持HA高可用

4、Atlas还提供了REST API来从Atalas查询和搜索

安全方面,Atlas支持双向SSL、Kerberos、JAAS(Kafka需要)

Atlas架构:

image.png

相关文章

zabbix监控华为存储设备

zabbix监控华为存储设备

确认监控方式开始监控之前首先思考确认好要监控的方式。提出疑问:zabbix 监控华为存储设备推荐使用snmptrap还是snmptt呢?回答:在 Zabbix 监控华为存储设备时,您可以选择使用 SN...

EMR yarn集成Cgroup

EMR yarn集成Cgroup

CGroups(Control Groups)是Linux内核的一个资源隔离功能,限制/隔离/统计进程的资源使用,包括CPU/内存/磁盘IO/网络等资源。YARN中也集成了CGroups的功能,使得N...

HDP-Yarn开启CPU调度和隔离

HDP-Yarn开启CPU调度和隔离

进入到ambari主界面 点击yarn 点击config CPU Scheduling and Isolation 设置为enable修改高级配置点击ADVANCED搜索需要修改的配yarn.node...

Hdfs3.x新特性详解

Hdfs3.x新特性详解

HDFS Disk Balancer(磁盘均衡器)HDFS Disk Balancer与HDFS Balancer的区别?两者都是实现负载均衡功能HDFS Balancer是之前Hadoop2.x中本...

SQL Server优化入门系列(三)—— 性能计数器(performance counter)

SQL Server优化入门系列(三)—— 性能计数器(performance counter)

说明Performance Counter是windows系统中通用的性能分析工具。Windows OS和SQL Server暴露了很多Performance Counter,可用户分析整个系统的运行...

MySQL运维实战(2.4) SSL认证在MySQL中的应用

MySQL支持使用tls进行通信。tls主要有几个作用对客户端、服务端之间的通信数据进行加密。包括客户端发往服务端的SQL,服务端返回给客户端的数据。客户端可以验证服务端的身份。服务端也可以验证客户端...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。