行业前沿:互联网人必须读懂的“数据智能”
从1956年美国达特茅斯会议首次提出“人工智能”的概念,到如今新一轮科技革命和产业变革方兴未艾,大数据、云计算、5G等为公众所熟知。大数据时代势不可挡,尤其在垂直细分行业的大数据应用展现出巨大潜力,大数据与各行业业务场景有机结合,推动细分行业实现数字化转型升级,助力社会治理创新发展,同时催生出大批新模式与新业态。
中国移动互联网的发展见证了中国大数据行业的蓬勃发展。数据智能作为移动互联网时代的自然产物,也是未来很长一段发展阶段的核心所在。
本文主要根据个推在数据智能领域多年的实践,来为大家阐述数据智能的本质以及技术体系要求,之后还会跟大家分享关于数据中台、数据体系建设的实质、思路和方式等内容。希望能用通俗化的语言,能让各位技术人员、产品或运营对数据智能以及所涉及的技术体系有一个比较清晰的了解,为大家的日常工作带来一些新的启发。
1. 大数据的发展历程
什么是数据智能,这个概念怎么来的呢?
记得从2010年开始,随着移动互联网的兴起,大数据也随之出现在各个媒体网站和行业论坛,大家见面都会问一句:“你们搞大数据了吗?” 其实大家都不太清楚大数据应该怎么搞,哈哈。
对于大数据能做什么,我在2013年左右找到一张我比较认可的图:
我把它称之为大数据成熟度模型。这个过程实质上我们理解也是数据从工具变成为资产的过程,从一个辅助的东西变成生产资料的过程。现在在提的数字经济,很多人试图对此进行理论定义,以便把数字经济和实体经济从概念上区分开来,我的建议是就从数字是否作为主要生产资料,是否作为核心资产这个角度去界定,会比较简单明了。
从这几年的实际发展来看,大数据基本上按照上图的这个模型在演进发展。
2013年左右,企业已经开始认知到数据价值,各个具有大数据生产环境的行业如电信运营商、政府、公安、金融等开始建设大数据平台,收集并存储企业业务产生的数据。同时,金融等行业也开始大量购买外部数据,希望通过外部数据快速挖掘数据的价值,弥补自身数据短缺的问题,不少从事数据聚合和相关服务公司获得了发展机遇。
2015年,大数据进入到了监测阶段,通过数据大屏等形式,实现对业务的监测,这是大数据最早、最先成熟的应用方向。对于政府、央企及大型国企而言,数据大屏、领导看板等数据展现应用是大数据最直接能够反映价值的方式。
2017年,大数据平台建设基本完善,单纯数据展现开始难以满足企业的多样化需求,大数据开始与业务场景结合,基于大数据实现对业务问题的洞察,呈现出百花齐放的局面,分别应用在金融领域的精准营销和风控反欺诈,公安领域的刑侦破案,工业领域的故障预测预警等。
企业对业务场景的洞察,单纯靠简单的数理统计已经不足以满足要求。因此,数据挖掘、数据建模技术应运而生。AI建模平台、数据科学平台开始进入人们的视野,出现了一些主打建模平台的创业公司,但更多公司将AI建模平台内化成自身的能力,基于AI建模平台,形成解决方案,帮助企业客户落地大数据应用。
在2019年左右,大数据开始进入到业务决策阶段,也就是说,由机器形成数据报表或者数据报告,业务人员进行决策,变成机器直接给出决策建议,让机器具备推理能力。例如:在外卖、出行场景,美团和滴滴的系统直接形成最佳调度方式,系统自动完成决策环节,将任务下发给骑手和司机。这种消费互联网相对常见的场景,将在产业互联网、企业业务场景中逐渐出现。也就是说,大数据开始从业务数字化阶段向数据智能化阶段迈进。
2. 数据智能的特征和定义
从上节中的大数据发展历程中,我们看到数据智能目前对应的是决策、优化以及商业重塑阶段。也就是说让机器具备推理能力,而这些能力意味着自然语言处理(NLP)、知识图谱(Knowledge Graph) 等认知技术的逐渐成熟,这也是为何2018年NLP、知识图谱成为市场的热点的原因。
因此,数据驱动决策,数据驱动业务发展的企业新需求,也必然会带动一批数据智能公司的兴起。
未来,随着技术更加成熟,大数据会从决策进入到最后一个环节,也就是业务重塑。很多执行环节可以由机器来实现,但仍然有很多环节需要人参与其中。因此,人机协同会迎来迅猛发展,从人工智能 AI (Artificial Intelligence ) 向人类智力增强 IA (Intelligence Augmented) 进发。
至此, 我们试着给数据智能做一个定义:
数据智能就是以数据作为生产资料,通过结合大规模数据处理、数据挖掘、机器学习、人机交互、可视化等多种技术,从大量的数据中提炼、发掘、获取知识,为人们在制定决策时提供有效的数据智能支持,减少或者消除不确定性。
3. 数据智能的技术体系
数据智能首先需要有数据提供,而且数据在其中充当着核心资产和生产资料的角色,那么对于数据的治理就显得尤为重要。
什么是数据治理(Data Governance) 呢?
我们经常听到公司治理这个词,公司治理在经济学上主要解决几个问题:
- 所有权和经营权如何分离?
- 公司所有者如何向职业经理人进行科学的授权及监督?
那么对应地,数据治理也要解决类似的几个问题:
- 数据(资产)有哪些?
- 如何让数据所有权和使用权分离?
- 数据资产所有者如何向数据使用者进行科学的授权及监督?
数据智能的所有手段其实都是在解决上述的几个问题。
关于数据治理方面的内容我将在之后的文章中详细描述。
同时,我们知道穷人和富人之间的差别在于对待财富的态度,富人更多的是从资产增值的角度去对待财富,想的是如何创造更多资产,并且让资产不断增值;穷人更偏向于从消费的角度去看待财富,赚来的钱更多的是用于消费。
那么在数据智能时代,如果我们想成为一个“富人”,就需要考虑如何让数据发挥更大的价值,如何找到其他合作者去联合创造价值,但是数据不同于别的资产,其具有可复制性、难确权的性质,这就需要我们去解决数据安全问题,也就是目前行业内比较关注的安全计算技术。
还有一个需要我们关注的点是:大数据由于其具备的 4V 特性,特别是量大、种类多,有时候会让我们对于其聚合或者产生的结果存疑,虽然有一些可以通过常识或者直觉去判断,但是总是有说不出的味道。这就需要有一个质量保证体系来让我们对于数据从产生到开始的各个环节有一个完整的检验过程。
在这里小结一下,数据智能的技术体系至少需要包含三个方面:
- 数据治理系统
- 数据质量保证系统
- 数据安全计算体系
结语
数据智能作为大数据时代一个重要且激动人心的阶段,机会与挑战并存。
作为本系列开篇文章,本文对该主题内容进行了一个整体概述,后续会对具体内容逐步展开,希望对大家有所帮助。
作者:叶新江,个推CTO
本文作者 @个推 。
版权声明
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!