如何从0到1开始做大数据治理（下）

一个数据人的自留地 2023-07-27 15:01:39

04 数据治理的实施

1. 存储优化

数据膨胀是大数据治理最先要解决的问题，它直接关系到成本问题，解法是进行存储优化，也就是设计规范化的存储策略，提高数据的共享程度。

从空间方面思考：

第一个关键词是合并，即合并冗余表；一方面是扫描数据表的依赖关系，上游表相似，表字段也相似，判断可能是冗余表，只留一个；另一方面把高度重合的表合并，从小表变大表。
第二个关键词是舍弃，即舍弃冗余字段；有些字段并没有多大存储意义，或者可以从其他来源处获取，可以从数据表中剔除。
第三个关键词是拆分，即内容压缩；例如通过一个数据压缩节点把大json字段拆分成几个内容字段，把格式相关的部分舍弃，需要还原的时候再通过数据解压缩节点逆向还原回来，平均可带来30%的存储空间释放。

从时间方面思考：

第一个关键词是生命周期：合理规划数据的生命周期，不同层的数据保留时间不一样。有的需要永久保存，有的不需要永久保存。
第二个关键词是冷热：对于那些暂时没有业务调用的冷数据，压缩归档。

如何从0到1开始做大数据治理（下）

除了通用化的策略外，不同行业，不同类型的数据还有自身特性化的治理策略。例如设备在某一个位置停留时间过久，回传了大量的重复坐标。

2. 计算优化

计算优化的目的，一是节省运算资源，二是提高数据加工处理的速度，缩短数据生产周期。

第一个优化点是避免在异常数据上浪费算力。有些数据虽然格式上没有问题，但实际上根据业务场景的定义是异常的，可以忽略；还例如某个设备是故障的，将它识别出来后它所产生的数据都不再参与计算。

第二个优化点是识别并应对数据倾斜。所谓数据倾斜有两种情况，一种是某一块区域的数据大于其他区域，另一种是某一些数据的大小要远远大于平均值；对存在数据倾斜的部分进一步分割，可以加速计算。

第三个优化点是提升核心UDF的性能。UDF 的性能很大程度上决定了处理流程的时间长短。通过代码审查，找出性能可以优化的节点进行代码优化；另外，将Python的UDF改成Java的UDF也可以提升一部分性能。

第四个优化点是引擎配置调优，例如开启数据压缩传输、合理设置map/reduce数、合理应用Hash/Range Cluster索引机制等。

第五个优化点是将MR streaming节点改写为SELECT TRANSFORM方式，SELECT TRANSFORM的性能很好，而且也更灵活，能够提高计算节点的可扩展性。

【拓展】SELECT TRANSFORM介绍：

很多时候我们面对的是这么一种场景，SQL内置的函数不能支持把数据A变成数据B的功能，所以我们用一个脚本来实现，而我们又想让它分布式的执行，这样的场景可以用使用SELECT TRANSFORM来实现。

SELECT TRANSFORM功能允许SQL用户指定启动一个子进程，将输入数据按照一定的格式通过stdin输入子进程，并且通过解析子进程的stdout输出来获取输出数据；SELECT TRANSFORM非常灵活，不仅支持java和python，还支持shell，perl等其它脚本和工具。

3. 工具提效

大数据治理需要牵扯到大量的表和节点上线、下线、测试、添加监控等，如果每个环节都需要人工操作，都要耗费很多人力；因此使用一些自动化和半自动工具可以显著提高效率，减少人工成本。

主要涉及到了数据比对工具、节点批量下线工具、自动化测试工具等。

05 数据治理的步骤

大数据治理与业务的正常发展是同步进行的，这就需要一个平滑的过渡过程。

1. 增量数据灰度平迁

这一步的作用是验证经过治理后的数据是下游数据应用方可以正常使用的，可以满足业务方使用数据的需求；主要需要解决好新旧数据表字段映射、字段扩展后数据补录等问题。

业务的迁移按照灰度原则，先迁业务轻体量小的，后迁业务重体量大的；分批次迁移之后持续跟踪、分析数据波动情况，一旦发现问题及早修复，以保障数据质量的可靠性。

2. 存量数据迁移

在增量数据上验证通过后，下一步就是迁移存量数据了；这一步需要关注的是存储空间的问题，一次性增加太多的新数据存储，旧数据来不及释放，会使得存储压力大增。

如何从0到1开始做大数据治理（下）

06 数据治理的效果验证

大数据治理的效果体现在数据存储成本是否降低、数据产出周期是否缩短、数据质量是否提高、数据量增长势头是否减缓等方面。

07 总结

大数据治理的过程是一个很好的梳理现有业务的机会；一次成功的数据治理不仅给企业带来成本、效能上的改善，还锻炼了数据团队，为数据价值体系建设奠定了基础。

#作者#

大鹏，公众号：一个数据人的自留地。《数据产品经理修炼手册》作者。

本文

版权声明

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！

标签：分析评测产品经理初级产品经理大数据治理

上一篇 > 社群运营：社群活跃的数据分析模型
下一篇 > 通过数据分析，如何挖掘出优质的内容营销故事？

相关文章

Axure原型案例实战分享：如何改造后台产品架构及如何迭代更新升级现有的产品？

从入门到精通：产品经理的需求分析进阶之路

定制项目有多可怕？

产品经理怎么写出面试官一看就想约的简历

OGSM被宝洁誉为神器？

产品经理与开发的日常“相爱相杀”

产品的力量：从理念到实践（四）

做运营做不了的事

产品经理先考虑清楚这些问题，再开始一段属于自己的创业旅程

如何在压力山大的产品经理生活中调节情绪

如何给需求排优先级？

产品经理：如何“化零散需求”为“高效解决方案”？

产品经理如何做需求分析？这 8 个步骤一学就会！

业务场景梳理，产品经理必备的技能点

从产品新人到项目owner

不懂技术的产品经理，如何让 AI 码农帮敲代码？

这类产品经理，永远不会失业……

产品架构的本质

需求驱动的产品规划：产品经理方法论

想把产品做好，只有深度使用才行

产品经理的面试技巧，简历要点，并从四个方面拆解面试重点

【跨界奇谈1】韩立版“精益创业”案例分析

产品艺术性的思考

不会要账的产品经理，不是好的谈判员

产品经理与项目经理到底有什么区别？该怎么选？

产品小白不迷路01：我适合做产品经理吗？

物联网对传统互联网产品经理的影响

优秀的产品经理应该具备什么样的思维方式？

产品经理的职业深度进阶：策略性思考与领导力提升

产品经理方法论连载03 | 产品通识——产品经理的岗位分类

面试产品经理时，如何回答有关创新和产品方法论的问题

微信公众账号

微信扫一扫加关注