元数据管理

楼高2年前技术文章948

一、元数据概念

元数据是关于数据的数据,主要用于跟踪、分类和分析。元数据大致定义为提供有关其他内容的信

息的数据,但不提供有关数据实质的信息,例如图片本身或文本消息的内容。它可以帮助用户理解

数据的含义,对于确保遵守法规和数据治理计划至关重要。元数据提供数据的来源、含义、位置、

所有权和创建等信息。例如,数字图像中的元数据可能包含其大小、分辨率、创建时间和颜色深度

等信息。它有助于数据的分类、组织、标记、排序和搜索。元数据存储库是存储和管理元数据的数

据库。应向数据库提供内容,以确保按预期使用并适当识别内容,例如,数字图像集合的数据库。

二、元数据功能

元数据是关于数据的数据,它实质上封装了高度结构化字段中有关数据资产的不同属性、历史记录、

来源、版本和其他信息,主

要用于跟踪、分类和分析。不论是否为结构化数据,还是非结构化数据,甚至是数据湖的数据,都

需要对数据进行管理,比如

(1)数据什么时候到

(2)属于哪个业务领域、哪个部门的数据

(3)来自哪个系统、哪个应用

(4)基本度量

(5)Schema

(6)Format

三、元数据治理范围

元数据管理涉及到数据治理、Lineage、监控、业务信息、访问控制、审计、合规、可视化、数据

标准、数据质量、版本控制、计算作业、发布管理、计量计费、告警等方方面面。关系到企业如何

有序地、高效地、稳定地、弹性地、智能地运行。虽然Haddop生态基本上用HCatalog来存储元数

据,但仅仅存储是不够的,对于整个企业而言是非常局限的。一个字段名及其语义标签在一个企业

中存在多种表达,而内容本质上却是一个在企业数据的整个架构下,远不止纯粹数据层面的元数据

信息需要整合管理,还包括各种其它对象,如UDF(Kylin、Hive、Flink、Spark、Storm、

Phoenix等)、作业(Flink、Storm、Spark等)、集群、业务要素等,这样才能更充分、高效、

系统、完整地保障企业的运行效率。对于作业,更理想的开发和使用方式应当是配置的,而剩下的

事情交由平台完成,这样才能使用户以更加一致的、统一的、低成本的、可追溯的方式来执行所需

的计算任务,而这离不开针对作业的元数据管理。因此,需要一个独立的、统一的元数据管理平台。


四、开源元数据治理工具Apache Atlas 

1、Atlas是针对Hadoop生态的元数据管理工具,以基于HBase的JranusGraph作为存储,Solr

用作搜索

2、Atlas用Hook感知Hive/Kafka/HBase/Storm/Sqoop的元数据的变化,但是没有Flink

和Pulsar,不过可以定制

3、Atlas支持HA高可用

4、Atlas还提供了REST API来从Atalas查询和搜索

安全方面,Atlas支持双向SSL、Kerberos、JAAS(Kafka需要)

Atlas架构:

image.png

相关文章

MySQL 函数触发隐式转换应对策略

前言MySQL 中,当 SQL 索引字段使用了函数的话,会出现隐式转换的问题,导致索引失效,从而导致 SQL 执行效率变慢。本篇文章介绍 MySQL 不同版本此类问题的应对策略。1. 环境介绍以下是本...

PG的表膨胀

1 什么是表膨胀众所周知,PostgreSQL的多版本并发是通过保留变更前的记录来实现的。当数据记录被DML修改,旧版本记录仍保留不变,仅仅需要修改相关记录的xmin、xmax属性,并新增写入变更后的...

服务器间文件传输方法

一、windows间互传当我们想要对业务数据进行传输时,需要借助第三方工具或者系统自带的服务进行数据传输,以下介绍三种常见数据传输方法1、通过windows自带的系统映射服务拷贝数据到目标服务器;端口...

CDH实操--Zookeeper角色迁移

CDH实操--Zookeeper角色迁移

Zookeeper角色迁移计划1.集群Zookeeper服务角色实例分配情况2.由于角色规划不合理,需要将cdp1.hadoop.com节点的Zookeeper实例实例迁移到cdp4.hadoop.c...

InnoDB秘籍:MVCC机制与行锁的深度探索(3)

InnoDB秘籍:MVCC机制与行锁的深度探索(3)

03Innodb 锁机制锁用来控制多个并发的进程或线程对共享资源的访问,在 MySQL 数据库中,共享资源包括:内存中的链表结构,如会话列表、活跃事务列表、InnoDB Buffer Pool 中 L...

HDFS FQA-Active Namenode does not exit SafeMode with error :"Protocol message was too large.

1、背景重新启动 Active Namenode 时,它卡在安全模式并报告以下错误:Caused by: java.lang.IllegalStateException: ...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。