数据仓库，为什么需要分层建设和管理？

数据干饭人 2023-08-06 16:08:30

数据仓库是数据化运营和数字化转型的底层基础设施，数据仓库不完善或者建设质量差，再好的上层建筑（数据应用产品或工具）也很难牢固地生存下去。在数据仓库建设时，绕不开的话题就是数仓分层。

一、为什么要进行数据分层

1. 降低数据开发成本

基于数据模型的开箱即用的开发成本要远小于每一次的case by case的按需开发。例如要计算产品的DAU指标，直接从加工好的数据表中select一下指标值，不管是SQL代码的复杂程度还是查询性能、耗时都要远比再从源表重新清洗一遍业务逻辑要简单的多。

通过分层建设，把通用的业务逻辑加工好，后续的开发任务可以基于模型快速使用，数据需求的响应速度也会更快。

产品经理，产品经理网站

2. 降低任务运维成本

业务发展过程中，数据指标口径、统计逻辑变化是常态，任务失败也屡见不鲜。如果每一次调整都需要对所有的数据任务进行修改，再去回溯数据，那数据开发大部分时间都在填坑中度过了，而且还会经常出错。

我们知道，管理一棵大树，只要花时间聚焦把主干和重要分支维护好，树就可以正常生长，而管理一片稻田，则需要对每一棵禾苗进行保养。

数仓分层就是希望通过对最基础的、常用的数据进行抽象，找出数据的主干，对主干进行修复后，下游的叶子节点就可以最小变动。例如，当产品改版后，涉及流量统计指标口径需要调整，通过数据分层，只修改最底层的源表的逻辑就可以实现整个链路的数据更新。

3. 方便共享复用，减少重复建设

不同的开发人员、不同时期开发的模型，如果没有分层管理规范，往往导致后期使用时找不到，不是不想复用，而是数据找不到或者需要花费很长时间沟通、翻代码确认，最终耗时反而没有重新写一套逻辑来的快，长此以往，导致大家都不敢用别人的模型，数据复用度低，带来存储和计算资源的浪费。

通过数据分层，将数据有序的管理起来，就像图书馆的书架导航，可以快速帮助使用者找到所需要的书籍在那一层书架中，能找到现成的，相信都不愿意做冤大头重新做一份吧。

产品经理，产品经理网站

4. 统一数据口径

同一个指标在数据加工处理时，复用的是同一个数据模型表，这样很大程度可以规避数据统计不统一的问题，毕竟本是同根生嘛。

二、数据仓库的分层方法

产品经理，产品经理网站

ODS层：贴源数据层，一般是从各种业务系统、日志数据库将数据汇集到数据仓库中，作为原始数据存储和备份，一是数据仓库建设不会直接查业务的关系型数据库，而是通过数据同步的方式，将业务从库数据同步到HDFS（Hive）等，适合海量数据存储和加工处理的介质中。

DWD层：数据明细层，对ODS层数据进行规范化处理，例如脏数据过滤、数据格式化等，但仍以数据明细方式存储，且将数据进行主题、层级划分。

DIM层：维度表，在维度建模理论中，可以通过业务主题宽表关联维度表方式，快速输出直观的数据分析结果。

DM层：数据集市层，基于对业务的需求的理解和抽象，建立通用的指标和分析维度模型，数据仍以明细为主，部分可以直接加和汇总的数据指标，可以采用聚合结果的方式呈现，但如DAU等涉及去重的指标，一般以明细存储。

APP层：数据应用层，面向不同业务部门、不同产品需求提供具体业务场景的结果表，通过数据同步方式再从数仓同步到MySQL、Greenplum等查询引擎，供前端数据产品输出使用。定制化程度高。

三、数据仓库分层管理规范

数据仓库分层管理中，通过不同层级的数据使用情况指标的构建，对数仓建设完善度和复用度进行指标化管理。

1. 完善度

数仓模型对业务的支撑和覆盖情况，完善度越高的数仓体系，业务获取和使用数据的成本就越低。即当业务需要数据时，已经相应的模型在哪里等着使用了，而不是再去对接业务沟通需求，排期开发。

例如当管理者问数仓负责人，你们天天搞数仓建设，现在到底建设到什么程度了呢?有了完善度评价标准，可以量化数仓建设成熟度。

通过数据血缘及查询日志，可以对数据加工任务以及Adhoc查询进行统计分析。例如，在数据查询中，直接查询ODS的任务占比，占比越高说明有大量任务基于原始数据加工，中间模型DWD、DWT、DWA复用性很差。

在技术上，直接查询底层表，查询扫描的数据量会越大，查询时间会越长，查询的资源消耗也越大，使用数据的人满意度会低。可以跨层引用率来衡量支持完善度，

DWD层：看ODS层有多少表被DWT/DWA/APP 层引用，占所有活跃的ODS 层表比例。

DWT/DWA/APP层完善度：主要看汇总数据能直接满足多少查询需求，也就是用汇总层数据的查询比例，如果汇总数据无法满足需求，使用数据的人就必须使用明细数据，甚至是原始数据。汇总数据查询比例：DWT/DWA/APP层的查询占所有查询的比例。

跨层引用率越低越好，在数据中台模型设计规范中，一般不允许出现跨层引用，例如ODS层数据只能被 DWD引用。

2. 复用度

复用度顾名思义，资产建设完成后，被不同业务或用户复用的情况，复用才会减少重复开发。可以用引用系数作为数据中台资产复用度评价指标。引用系数越高，说明复用性越好。

引用系数：数据表被读取，产出下游模型的平均数量。例如一张DWD 层表被8张 DWS层表引用，这个表的引用系数就是8，把拥有下游的DWD 层表(有下游表的)引用系数取平均值，则为DWD 层的平均引用系数。

四、小结

数据仓库建设以及分层管理，回归到最初的目的，就是降本提效，通过各种规范、手段、流程，来保障数据输出效率最高，可以快速响应业务发展的数据需求，用数据来驱动决策或赋能业务。同时，也要从成本角度考虑，不断降低数据开发成本、存储成本、计算成本。用最少的人和资源，覆盖更多的业务数据需求。

作者

数据干饭人，微信号公众号：数据干饭人。专注数据中台产品领域，覆盖开发套件，数据资产与数据治理，BI与数据可视化，精准营销平台等数据产品。擅长大数据解决方案规划与产品方案设计。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！

标签：分析评测产品经理初级产品经理数仓分层

上一篇 > 滑呗竞品分析
下一篇 > 大厂都在谈的数据思维，到底怎么锻炼？

Axure原型案例实战分享：如何改造后台产品架构及如何迭代更新升级现有的产品？

产品经理先考虑清楚这些问题，再开始一段属于自己的创业旅程

如何在压力山大的产品经理生活中调节情绪

如何给需求排优先级？

产品思维

产品经理：如何“化零散需求”为“高效解决方案”？

产品经理如何做需求分析？这 8 个步骤一学就会！

业务场景梳理，产品经理必备的技能点

从产品新人到项目owner

不懂技术的产品经理，如何让 AI 码农帮敲代码？

产品经理的面试技巧，简历要点，并从四个方面拆解面试重点

【跨界奇谈1】韩立版“精益创业”案例分析

产品艺术性的思考

不会要账的产品经理，不是好的谈判员

产品经理与项目经理到底有什么区别？该怎么选？

产品小白不迷路01：我适合做产品经理吗？

物联网对传统互联网产品经理的影响

优秀的产品经理应该具备什么样的思维方式？

产品经理的职业深度进阶：策略性思考与领导力提升

产品经理方法论连载03 | 产品通识——产品经理的岗位分类

面试产品经理时，如何回答有关创新和产品方法论的问题

数据仓库，为什么需要分层建设和管理？

一、为什么要进行数据分层

二、数据仓库的分层方法

三、数据仓库分层管理规范

四、小结

相关文章