说透数据建设的四大核心能力

开篇语

近代人类文明的飞速发展和社会面貌的改变,要从开启工业时代的蒸汽机发明说起,随着工业革命,人类开启了技术变革经济、技术变革政治乃至技术变革生活的技术变革历程。从工业时代到电子时代,再到信息时代,逐步走进了如今这个数字化和智能化的时代。不管是全球经济大势,还是国家顶层设计发文,言必谈及“数字化转型”这样一个热门词汇。

数字化转型,又包含哪些核心内涵呢?答案是数据。如果做不好数据建设,数字化转型就如同无根之木,无源之水,因此,数字化转型必先做好数据建设。

一、数字化转型

1. 什么是数字化转型

下面这段话摘自MBA智库的“数字化转型”词条解释:

数字化转型是指顺应新一轮科技革命和产业变革趋势,不断深化应用云计算、大数据、物联网、人工智能、区块链等新一代信息技术,激发数据要素创新驱动潜能,打造提升信息时代生存和发展能力,加速业务优化升级和创新转型,改造提升传统动能,培育发展新动能,创造、传递并获取新价值,实现转型升级和创新发展的过程。

从大背景上来说,为什么“数字化转型”浪潮正在席卷全球呢?

简言之,数字化转型已成为企业适应数字经济,谋求生存发展的必然选择。特别是对于中国,经历连续高速增长,中国经济增长已经由高速增长,转入低速增长和高质量驱动的阶段。面对产业结构调整、资源环境挑战、数字技术与创新带来的行业颠覆与机遇,中国企业逆水行舟,不进则退。因此,应对新环境和新时代的挑战,企业转型势在必行。

2. 数字化转型的关键

我们已经知道了数字化转型的重要性和必要性,那么,数字化转型要成功,关键在于什么呢?人、信息与基础架构。

具体来说,数字化转型要做的就是将人的创造力、由信息衍生的智慧与结合万物和流程的连接性这三大关键价值驱动因素汇集起来。

3. 数字化转型的相关技术

俗话说:工欲善其事,必先利其器。

那么数字化转型的“利器”是什么?技术。

需要哪些技术?笔者罗列如下。

  • 云平台:基于硬件的服务,提供计算、网络和存储能力。
  • 移动化:在综合通信平台基础上,通过应用、服务及网络三个层面,实现管理和服务的移动化、电子化和网络化,向社会提供高效优质等全方位管理与服务。
  • 物联网:通过智能感知、识别技术与普适计算、泛在网络的融合应用,实现智能化识别和管理。
  • 人工智能:通过普通电脑实现的智能化。
  • 网络分析:依托网络拓扑关系,考察网络元素的空间及属性数据,对网络性能进行多方面分析。
  • 互联网安全:使网络系统的硬件、软件及其系统中的数据受到保护。
  • 云计算:通过网络以按需、易扩展的方式获得所需的服务。
  • SDCI(软件定义互联基础架构):增强数据中心虚拟化的收益,提高资源灵活性和利用率。

4. 数字化转型与数据建设的联系

虽然数字化转型的相关技术里并没有提到大数据、数据建设等关键词,但所提到的云平台、云计算、人工智能等,则是个个都离不开数据建设和应用。云平台所提供的存算能力正是为了数据服务的,云计算所提供的服务也大多是以数据结果的方式,而人工智能则是完全的以数据为载体的应用和服务。因此,数据建设是数字化转型这个系统工程的核心子工程。

二、数据建设

1. 数据中台

有人说,在数字化时代,数据将成为地位等同于黄金、石油等稀缺物质资源的新型战略资源。如果把数据比作石油,数据最终的价值变现则是体现在所有会用到“石油”的场景里。那么数据这种“石油”是直接就可以应用并产生价值了吗?那肯定是不行的,需要“炼油厂”。

“炼油厂”是什么?就是数据中台。

数据将由数据中台进行“采集”->“加工提纯”->“分发应用”的整个链路,最终转化为数据应用或者数据服务提供业务价值。

而在这个场景里,数据中台的价值是什么?

数据中台的价值在于——让数据稳定持续地发挥业务价值,实现业务赋能。

2. 数据生产消费全链路

数据生产消费全链路如下图所示。

从图中我们可以知道,要实现整个全链路的搭建和稳定持续地产生价值,需要做很多个模块的构建和协同,经过进一步抽象和提炼,其实是要依托四大核心能力,分别是:数据采集、数据开发、数据管理和数据应用。

3. 数据中台架构

对于数据中台架构,业界内基本上都是大同小异的,这里放一个相对标准的以供参考。

4. 四大核心能力

1)数据采集

首先,数据采集是整个数据全链路的源头。数据采集解决的是什么问题?数据来源。整个数据链路上,到底有哪些数据资源可以用来做加工?获取这些数据资源的时效性如何,有延迟还是实时?这是由数据采集决定的,更深一层,这也是由需求和终端业务场景所决定的。

为了把这个问题说得更清晰一点,这里举个简单的例子。

我们投入了很大的精力和成本,把来自业务系统的订单数据采集做成了实时同步(即每当业务系统中产生了一条新的订单数据,马上就采集过来了),但实际在数据应用上,不管是看数(使用数据看板等可视化功能)、分析(使用BI等数据分析功能)还是取数(使用自助取数功能),用户都仅仅是拉取以月粒度为主的数据来使用,对数据更新的敏感程度最多到天这个粒度,并且有没有当天的数据参与分析,也不是特别重要。

那么这时候,我就会发现,至少在数据采集这个工作上,“杀鸡”用上了“牛刀”。虽然我们在技术上很厉害,支持到了实时级别的同步更新,但实际上投产比很低,并不是一个好的实践。

这个例子想要说明的是,在数据采集的实务落地上,应面向需求制定方案,而不是面向技术。

除了切合需求本身,想要做好数据采集,还需要关注哪些关键点呢?

① 打破数据孤岛

在兼顾技术可行性和成本的情况下,能够尽可能地连接与业务相关的数据资源,是打破数据孤岛的路径。除了打通业务系统获取主业务流中的数据以外,格局还可以放大一些,我们还可以去关注公司自研系统之外的数据来源,比如公司外采的系统(常见的如SAP的业财、ERP、WMS等系统)、公司在第三方电商平台/渠道上开展了线上业务所沉淀在平台上的数据、公司竞对的市场竞争数据、公司业务相关的流量/信息渠道的声量、舆情、用户兴趣偏好等非结构化数据(如百度搜索、抖音、小红书等)。

② 解决多源异构问题

在我们的努力下,数据孤岛被各个击破,随着数据来源的逐步丰富,数据的多源异构问题浮上水面,这是必须要解决的问题,它决定了数据效率的上限和数据质量的下限。

玩过文明系列电脑游戏的应该都知道,在迈向工业化时代及工业化走向成熟时期的标志性事件是什么?零件标准化。这个道理对标到这里,也是一样的。解决多源异构问题的过程,就是源数据标准化的过程。在数据采集环节解决多源异构问题是数据标准化工作的第一道关卡。

③ 源数据质量管控

说到数据质量,其实这是整个数据建设和治理工作中的一个专题了,甚至可以专门为了管理好数据质量做一个系统,这属于数据管理的范畴。但为什么把“源数据质量管控”放到数据采集这里来说呢?那是因为要保证最终的数据质量达标,源头是重中之重。就好比污水治理,如果不把控好上游的源头,下游花重金治理一定是事倍功半的。

怎么做好源数据质量管控?需要在数据同步进来的时候做好把关。一些很明显的数据质量问题,如空值、数据取值不合逻辑、数据结构混乱等,是很容易发现的,这一类数据一经发现就应该拒绝入湖,并且反馈问题到业务系统的产研团队,明确要求整改,整改完毕后再行补数。

④ 采集SDK必要性辩证

像字节跳动的火山引擎出品的DataLeap套件,就提供了采集SDK的功能,即用户可自行配置SDK完成个性化的数据连接和采集入湖。采集SDK做还是不做的必要性,需要具体情况具体分析,需要根据自身的业务需求和场景、数据资源分布情况、可投入技术资源等进行辩证后得出结论。

2)数据开发

对于数据开发,其实就是需要给出一套工具和规范来承载整个数据存储、计算和开发的过程,并且尽可能使这个过程标准化、高效率和可控。

比如在工具层面,很多大厂都已经完成了商业化封装并提供了一整套数据开发套件,感兴趣的同学可以去搜索DataLeap(火山)、DataWork(阿里)、TBDS(腾讯)等产品白皮书和技术文档以作详细的对比和了解。

再比如在工具集成开发流程和规范方面,美团、哔哩哔哩都有被称为“一体化建模”的优秀实践。

总之,在数据开发这个能力下,我们关注的是:

  • 数据存哪里?迁移和备份怎么搞?
  • 整合与完善
  • 数据建模的规范性、健壮性和可扩展性
  • 从业务流到数据流的抽象与组织
  • 数据范围与实体
  • 数据分层建模、维度建模等方法论的代码层落地
  • 数据开发的质量管控,CodeReview机制

以上,不一而足。

3)数据管理

关于数据管理,又有些什么内涵呢?如果有读者感兴趣,希望详细了解,笔者推荐一本书《DAMA数据管理知识体系指南》。这本书不仅系统性地把数据管理范畴的所有要点做了概述和解析,同时还是数据领域权威认证——数据治理工程师(CDGA)证书的教材用书。

笔者对数据管理范畴的关键内涵进行简单介绍。

① 数据标准

内涵:是指保障数据的内外部使用和交换的一致性与准确性的规范性约束。

应用场景:应用于数据开发、数据质量管理,要点如下:

  • 基于数据标准编制数据质量规则,聚焦业务域和质量问题,持续监控应用情况。
  • 业务术语管理是数据标准管理的基础性工作。

② 数据资产管理

内涵:对数据资产进行规划、控制和供给的一组活动职能。

两个关键环节:

数据资源化:将原始数据转变为数据资源,使数据具备一定的潜在价值,是数据资产化的必要前提。以提升数据质量、保障数据安全为工作目标;包括以下活动职能:数据模型管理、数据标准管理、数据质量管理、主数据管理、数据安全管理、元数据管理、数据开发管理等

数据资产化:将数据资源转变为数据资产,使数据资源的潜在价值得以充分释放。以扩大数据资产的应用范围、厘清数据资产的成本与效益为工作重点,并使数据供给端与数据消费端之间形成良性反馈闭环;包括以下活动职能:数据资产流通、数据资产运营、数据价值评估等活动职能。

作用:逐步提高数据价值密度,奠定数据要素化基础

在实践中,我们可以通过搭建数据资产管理系统来完成企业级的数据资产管理。数据资产管理系统中需要有以下功能模块:

数据资产门户:

提供全局统计企业数据资产情况的功能,让企业管理者对数据的分布、增长、使用、质量情况有所直观了解。具体呈现数据包括:

  1. 指标统计:数据源数量、表数量、存储量、使用量、质量评分。
  2. 趋势统计:数据分布、数据增长趋势、数据使用热度。
  3. 数据排行:数据存储排行、质量规范排行。

数据地图:

数据地图也可称为“可视化的数据资产中心”,支持查看所有数据表,同时全方位管理数九资产。具体功能点包括:

  1. 数据查找:汇聚所有数据表信息,方便开发人员快速定位,方便业务人员快速查询,支持依类目、表名、项目、状态等筛选和检索。
  2. 元数据卡片:针对某张具体的数据表,在卡片中展示该表的基本信息,如表名、物理存储大小、生命周期、分区信息、字段列表等,同时支持少量数据预览。
  3. 数据类目管理:用户可自定义层级、名称并将数据表指定到类目节点上。
  4. 审批授权:提供表级别数据权限的管理,当用户需要跨项目访问表时,需通过审批授权进行权限申请,审批通过后才可访问。
  5. 生命周期管理:支持用户建表时指定生命周期,定时检测数据更新时间,自动清除超效期数据,释放存储空间,降低存储压力和成本。
  6. 数据血缘:可自动解析同步任务和SQL代码,生成表级别、字段级别血缘关系,用户可查询每个指标的“来龙去脉”,便于开发人员快速定位排查问题,业务人员深度理解指标。

③ 数据质量

数据质量是整个数据建设和治理工作的“可用基线”。不能保证数据质量的数据体系,即使数据应用建设得再炫酷,那也是“空中楼阁”,既不可信,也不可用。因此,数据质量管理是数据管理中不可或缺的部分。

我们如何衡量数据质量是否达标?看六个维度:完整性、规范性、一致性、准确性、唯一性、及时性。

我们又该如何开展数据质量管理工作呢?如下步骤可供参考:

  • Step1 计划:参考数据标准->定义数据质量规则库->构建数据质量评价指标体系->制定数据质量管理策略和计划。
  • Step2 执行:依托工具,管理内外部要求、规则库、评价指标体系->确定业务、项目、数据范畴,开展质量稽核和差异化管理。
  • Step3 检查/分析:记录稽核结果,分析问题成因,确定责任人,出具报告和整改建议。
  • Step4 改进:建立数据质量管理知识库,完善管理流程,提升管理效率,优化管理策略。

在数据质量管理这件事上,我们应该遵循两大原则:源头治理和闭环管理。

④ 数据安全

数据安全也是数据管理的一项重头戏,关乎整个企业的合法合规红线。我们如何保障企业的数据安全?通过包括两方面的内涵:其一是数据防外泄;其二是数据内部共享需合规。

我们需要做那些工作来实现这两个内涵呢?

宏观上,我们需要:组织建立数据安全治理团队,制定数据安全相关制度规范,构建数据安全技术体系,建设数据安全人才梯队等。

实务上,我们需要做如下事项:

制度规范类:理解安全需求和监管要求并制定制度体系(包括个人信息保护管理制度、数据分类分级标准规范、合规稽查及安全审计制度)

技术体系类:

  • 搭建工具,识别敏感数据,应用分类分级规范
  • 根据敏感级别,部署防控措施(如权限管控、数据脱敏、数据防泄漏、安全审计等)

改进执行类:总结问题与风险,动态评估规范适用性、有效性并予以更符合实务的调整,持续优化安全管理过程。

4)数据应用

数据应用是整个数据链路的最后一个关键环节,同时也是最重要的,直接与数据价值体现挂钩的。所有终端的用户,都是通过数据应用来消费数据,感受数据价值的。

而相比于前三项核心能力,数据应用能力的最大不同在于:前三项核心能力在业界相对有比较固定或通用的做法和方案,而数据应用能力则是可能呈现“百花齐放”的现象,根据企业所处行业、企业自身、服务用户、业务场景等不同而具有不同的形态。但总的来说可分类以下几类:

  • 面向C端用户的数据产品:比如高德地图(以地图为呈现载体的数据产品,但其核心能力支撑来自于数据能力的建设)。
  • 智能化数据产品:比较常见的比如内容生成、内容推荐、智能商品推荐、AI问答机器人等。
  • 可视化数据产品:如数据门户、业务专题数据看板(如销售域看板)等。
  • 分析类数据产品:如BI、自助取数、决策分析系统等。
  • 数据服务:一般是指将最终的数据结果封装为API的形式提供给下游应用的信息服务。

结语

以上内容所探讨的主要是数字化转型的概念,数据建设之于数字化转型的重要性,数据建设中的四大核心能力内涵及范围等内容,至于每一项能力具体在应用场景上如何构建,那又是一整个从需求到上线的完整过程和独立议题了,后续笔者会逐步开专题做详细分享。希望本篇文章的内容对你有所帮助和启发。

本文作者 @maggieC

版权声明

本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部