关于数据中台与数据仓库的区别,你需要知道这些
“中台”这个概念,是相对于前台和后台而生,是前台和后台的链接点,将业务共同的工具和技术予以沉淀。相对于业务中台来讲,数据中台跟企业的业务有较强的关联性,是企业业务和数据的沉淀,如果在烟囱林立的各财务业务系统之上搭建共享的数据中台,其不仅能降低重复建设和减少烟囱式协作的成本,也是企业差异化竞争优势所在。
然而,当说到数据中台这里,很多人就有了疑问,以前没有数据中台这个概念时,企业不是也建设了数据仓库、商业分析之类的东西吗?对比这个有什么区别?不就是换了个概念和马甲吗?
一、数据中台与数仓的区别
首先可以先看看专业的数据中台的白皮书是怎么说的:数据中台是一站式解决平台,从数据集成、大数据计算、数据治理、数据工具、数据模型、数据应用、市场集成完整一套综合解决方案及产品系列。
而数据仓库平台逐步从BI报表为主到分析为主、到预测为主、再到操作智能为目标。数据仓库系统的作用能实现跨业务条线、跨系统的数据整合,为管理分析和业务决策提供统一的数据支持。
但数据中台从某个意义来说也属于数仓的一种,都是要把数据抽进来建立一个数据仓库。但是两者的数据来源和建立数仓的目标以及数据应用的方向都存在很大差异。
首先,从数据来源来说,数据中台的数据来源期望是全域数据包括业务数据库,日志数据,埋点数据,爬虫数据,外部数据等。数据的来源可以是结构化数据或者非结构化的数据。而传统数仓的数据来源主要是业务数据库,数据格式也是以结构化数据为主。
数据中台不单单指系统或者工具,而是一个职能部门,通过一系列平台、工具、流程、规范来为整个组织提供数据资产管理和服务的职能部门。数据中台负责全域数据采集、数据资产加工和管理、并向前台业务部门和决策部门提供数据服务。所以,数据中台的核心应该是数据资产管理和数据赋能,通俗的讲就是数据弹药库。
1. 数据来源不同
数据中台的数据来源期望是全域数据,包括:业务数据库,日志数据,埋点数据,爬虫数据,外部数据等,数据的来源可以是结构化数据或者非结构化的数据。
而传统数仓的数据来源主要是业务数据库,数据格式是以结构化数据为主。
2. 建立的目标不同
目标是为了融合整个企业的全部数据,打通数据之间的隔阂,消除数据标准和口径不一致的问题。
数据中台通常会对来自多方面的的基础数据进行清洗,按照主题域概念建立多个以事物为主的主题域。比如会员域,商品域,渠道域,门店主题域等等。
数据中台遵循三个One的概念:One Data, One ID, One Service,就是说数据中台不仅仅是汇聚企业各种数据,而且让这些数据遵循相同的标准和口径,对事物的标识能统一或者相互关联,并且提供统一的数据服务接口。就像做菜一样,按照标准化的菜名,先把所有可能用到的材料都准备好。
而传统的数仓主要用来做BI的报表,目的性很单一,只抽取和清洗相关需要使用到的基础数据,进行建仓,然后再用来做领域分析,有的时候可能因为新增一张报表,就要从底层到上层再做一次加工和处理。
3. 数据应用方面不同
建立在数据中台上的数据应用不仅仅只是面向于BI报表,更多面向营销推荐,用户画像,AI决策分析,风险评估等。这些应用的特点比较轻,容易快速开发出来,因为重要的数据分析工作在数据中台已经完成并且沉淀,所以之前工作成果都能被多个应用共享。
而传统的数据仓库主要是面向报表或者高级可视化,数据应用的建设一般是面对相对确定的主题内容,在诸如数据建模,进行数据追踪与探查,深度挖掘层面存在较大的局限性。
4. 依赖平台不同
数据中台一般都是建立在分布式计算平台和存储平台,理论上可以无限扩充平台的计算和存储能力。
而多数的传统数仓工具只是建立在传统关系数据库和单一服务器部署的基础上,一旦数据量变大,很容易出现存储、效率、计算的问题,其后续扩充存在较大的成本和时间。
二、数据中台经历的阶段
事实上,阿里巴巴很早便开始运用中台模式满足业务需求,并于 2015 年正式提出中台战略。中台战略的原理是将不同业务通用的工具和技术加以沉淀,成立专门的中台部门,这样新的业务需求可以不再重新设计,避免因重复的功能建设和维护造成资源浪费。
构建灵活、多变的组织机制和业务机制是阿里巴巴建立数据中台的战略核心。各行业的领头企业也开始对数据中台、数字化转型进行积极探索,力求以数据智能的方式实现生产经营的智能化和精细化管理。
2018 年 8 月末,腾讯宣布组织架构变革,成立技术委员会,未来将打造技术中台。与此同时,京东、华为、美团等不同业务领域的互联网公司均着手改革组织架构,积极打通数据平台,构建数据中台。至此,数据中台由概念逐渐变为现实,数据智能赋能业务,用更低的成本、更高的效率为用户服务的模式逐渐被认可,数据中台得到进一步发展,掀起了一波数字化转型的浪潮。
而我们从阿里数据中台发展历程,可以看到大概经历以下4个阶段:
- 数据库阶段,主要是OLTP(联机事务处理)的需求;
- 数据仓库阶段,OLAP(联机分析处理)成为主要需求;
- 数据平台阶段,主要解决BI和报表需求的技术问题;
- 数据中台阶段,通过系统来对接OLTP(事务处理)和OLAP(报表分析)的需求,强调数据业务化的能力;
那么,数据中台这个阶段有什么特征?
其显著的特征就是数据量的指数级增长,从PB迈向了EB级别。
这个数量级的变化主要来源于IOT(物联网)的发展起来,带动了视图声(视频、图像、声音)数据的增长,这些数据需要视觉计算技术、图像解析的引擎+视频解析的引擎+音频解析的引擎来转换成结构化数据;来源于线下要想和线上一样,通过数据来改善业务,就要和线上一样能做到行为可监测,数据可收集,这是前提。
线下最大量的就是视图声数据,依靠IOT技术和算法的进步,最终会通过智能端来自动化获取数据;要使用这些数据,光有视觉算法和智能端也不行,还要有云来存储和处理这些数据,以及打通其他领域的数据。
综合这个阶段特征,我们看到依靠传统的数据仓库方法已经全然不能满足企业大数据量、非结构化、分布式存储的需求。还需要基于IOT设备收集数据、基于云端存储数据、基于AI算法和云计算进行应用。
未来的数据中台,一定是AI驱动的数据中台。
这个中台包括计算平台+算法模型+智能硬件,帮助企业去打通业务数据,最终建立线上线下触达和服务消费者的能力。中台不仅仅是系统,亦是一套方法论,中台最重要的价值在于从“管理在线”到“业务在线”。真正做到“一切业务数据化,一切数据业务化”。
本文作者 @国云数据 。
版权声明
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!