谈谈数据治理:怎么做元数据管理?

本篇文章主要是谈下元数据管理,对于元数据的一些概念我再简单地介绍下:

  • 元数据是什么——简单的来说:它是数据的数据。
  • 元数据的分类——技术元数据、业务元数据、管理元数据、
  • 元数据管理是什么——它是对元数据的创建、存储、整合、控制的一整套流程,能够支持基于元数据的相关需求和应用。
  • 那元数据管理的好处是什么——它能够让开发和业务人员快速的了解数据的上下游关系及本身的含义,精准定位需要查找的数据,减少数据研究的时间成本,提高效率。

那在项目中元数据管理该怎么做呢?

01 元数据范围

首先确定元数据来源范围,在实际的工作中,不是所有数据都是要做元数据管理,通常我们会选择业务数据做元数据管理,非业务数据(例如:备份数据、系统日志等)是不会纳入管理范围内,主要还是因为元数据管理是提供业务和开发人员快速掌握业务数据。

确定规则后,就要结合公司的实际情况去梳理出哪些业务系统、哪些数据库、哪些数据库用户、哪些表需要做元数据管理。当然也可以支持非结构化数据的元数据抽取,例如:word、pdf等。

02 元数据接入

元数据从哪接入,一般都是从源系统接入,假如公司已经存在数仓或者实时性要求不高,为了节约开发工作量,对于已有的元数据会从数仓接入,还未接入的会从源系统进行接入。

但这种方案也是存在风险,假如数仓的数据和源系统出现不一致,就会导致元数据出错。现在大部分的元数据抽取都是采用配置自动化的方式进行。

03 元数据标准

在梳理的过程中可能会出现有些数据库或者有些数据定义不规范的情况,导致元数据管理无法进行下去。那接下来需要建立元数据的管理规范,去反推前端的源数据进行整改,主要是保证元数据的完整性和一致性。

针对不同的类型的公司要求,元数据会开放给不同的人群,所以要对元数据进行权限管理,规范里面就需定义权限的管理流程:元数据的权限分层、元数据权限申请流程、元数据的发布流程、元数据的审核流程。

我的公司将元数据分为业务和技术两个管理属性,技术人员可以查看全域元数据,业务人员只能查看自己所对应业务流程的元数据,如要查看其他业务流程的元数据,需进行申请,申请流程要过元数据对应的业务和技术属主。

04 元数据维护

元数据维护主要是对已经发布的元数据进行维护管理,已经发布上线的元数据,如需调整、优化则必须重新走元数据发布流程,不准许对元数据进行直接修改。为了安全,元数据所有操作行为都要记录到元数据操作日志里面。

可以对元数据创建目录将不同的元数据挂在对应的目录下,按照业务流程、业务主题域、开发流程设计对应的目录,主要还是根据公司要求设计。

05 元数据查找、分析、报告

有单独的页面支持元数据的模糊或精准快速查找,通过输入关键信息查找对应的元数据。我所在的公司将元数据作为数据资产的一类,因此我们需要产出元数据资产报告,从报告中能够快速的了解元数据访问热度、数据价值、数据成本、数据分布等相关信息。

分析这块上一篇文章就有提到,主要是血缘分析,做血缘分析的两种方法。血缘分析对做关联影响分析很重要,尤其是刚进来的开发或者业务不了解数据,通过血缘分析能够快速的定位、分析数据。

 

本文作者 @木子姐

版权声明

本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部