元数据管理

楼高2年前技术文章1304

一、元数据概念

元数据是关于数据的数据,主要用于跟踪、分类和分析。元数据大致定义为提供有关其他内容的信

息的数据,但不提供有关数据实质的信息,例如图片本身或文本消息的内容。它可以帮助用户理解

数据的含义,对于确保遵守法规和数据治理计划至关重要。元数据提供数据的来源、含义、位置、

所有权和创建等信息。例如,数字图像中的元数据可能包含其大小、分辨率、创建时间和颜色深度

等信息。它有助于数据的分类、组织、标记、排序和搜索。元数据存储库是存储和管理元数据的数

据库。应向数据库提供内容,以确保按预期使用并适当识别内容,例如,数字图像集合的数据库。

二、元数据功能

元数据是关于数据的数据,它实质上封装了高度结构化字段中有关数据资产的不同属性、历史记录、

来源、版本和其他信息,主

要用于跟踪、分类和分析。不论是否为结构化数据,还是非结构化数据,甚至是数据湖的数据,都

需要对数据进行管理,比如

(1)数据什么时候到

(2)属于哪个业务领域、哪个部门的数据

(3)来自哪个系统、哪个应用

(4)基本度量

(5)Schema

(6)Format

三、元数据治理范围

元数据管理涉及到数据治理、Lineage、监控、业务信息、访问控制、审计、合规、可视化、数据

标准、数据质量、版本控制、计算作业、发布管理、计量计费、告警等方方面面。关系到企业如何

有序地、高效地、稳定地、弹性地、智能地运行。虽然Haddop生态基本上用HCatalog来存储元数

据,但仅仅存储是不够的,对于整个企业而言是非常局限的。一个字段名及其语义标签在一个企业

中存在多种表达,而内容本质上却是一个在企业数据的整个架构下,远不止纯粹数据层面的元数据

信息需要整合管理,还包括各种其它对象,如UDF(Kylin、Hive、Flink、Spark、Storm、

Phoenix等)、作业(Flink、Storm、Spark等)、集群、业务要素等,这样才能更充分、高效、

系统、完整地保障企业的运行效率。对于作业,更理想的开发和使用方式应当是配置的,而剩下的

事情交由平台完成,这样才能使用户以更加一致的、统一的、低成本的、可追溯的方式来执行所需

的计算任务,而这离不开针对作业的元数据管理。因此,需要一个独立的、统一的元数据管理平台。


四、开源元数据治理工具Apache Atlas 

1、Atlas是针对Hadoop生态的元数据管理工具,以基于HBase的JranusGraph作为存储,Solr

用作搜索

2、Atlas用Hook感知Hive/Kafka/HBase/Storm/Sqoop的元数据的变化,但是没有Flink

和Pulsar,不过可以定制

3、Atlas支持HA高可用

4、Atlas还提供了REST API来从Atalas查询和搜索

安全方面,Atlas支持双向SSL、Kerberos、JAAS(Kafka需要)

Atlas架构:

image.png

相关文章

hive部署

安装前准备修改环境变量vi /etc/profile 添加内容如下:(hive节点都要执行)export HIVE_HOME=/opt/hiveexport PATH=$PATH:$HIVE_HOME...

MySQL 复制-半同步搭建及原理

MySQL 复制-半同步搭建及原理

前言MySQL 半同步复制解决了什么问题?在传统主从架构中,主库实例提交事务与发送二进制日志是异步的,也就是说从库是否成功接收到二进制日志不会影响到主库事务提交,因此可能会出现  “主库发生宕机,主库...

 大数据集群监控配置操作指导(三)Flink监控开启jmx

大数据集群监控配置操作指导(三)Flink监控开启jmx

官网的关于 flnk+prometheus的文章https://flink.apache.org/features/2019/03/11/prometheus-monitoring.htmlprome...

xtrabackup报错记录

xtrabackup报错记录

报错记录报错一:报错显示需要依赖,但是当我们执行 yum install -y libstdc++ 显示已是最新版本,且通过 yum 安装 一般会将依赖包都直接安装成功。这时候可以核实一下安装包和当前...

MongoDB的索引(三)

七、Compound Indexes{  "item": "Banana",  "category": ["food", "produce", "grocery"],  "location": ...

Python 并发编程 Futures

Python 并发编程 Futures

说明编程中如果能合理利用编程语言的并发编程技巧,都可以极大提升程序的性能。在 Python 3.2 版本为用户提供了一个标准库 concurrent.futures 可以实现进程池 和 线程池,本篇文...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。