知识图谱：专治各种“撒币”

2018-01-18 08:55:00

技术正在努力把未来的币，撒到现在的土壤里。

曾记得十几天之前否？那时我们踌躇满志的跨进了2018，满怀着对未来的渴望和珍重……然后我们惊奇地发现，2018第一个火起来的词叫“撒币”…
不是我说啥，这可真出戏啊。
似乎一夜之间，直播答题和这个叫做”撒币”的关键词就火了。王思聪的冲顶大会、映客的芝士超人、花椒的百万赢家，一时之间大佬们疯狂争当“大撒币”，人民群众则纷纷出头相当被币砸到的那个幸运儿。
当然了，不管这些平台们如何“撒”，最终“币”还是要回到他们自己口袋里的，毕竟做生意是为了赚钱，搞出来这么大场面当然是为了放后招，没听说过哪位出题让人答是为了做慈善的。除非…除非AI化妆成选手，也来答个题，说不定能干到王思聪们没币可撒…
毕竟，答题也是讲科学的对不对？
AI答题这件事其实也不新鲜，不信你百度输入一个“长城有多长”之类的，马上就会给你跳出来答案。这里就是用了AI的专业答题姿势：知识图谱。
借着直播答题的春风，今天讲讲知识图谱的故事吧。虽然在机器视觉、语音交互等“网红技术”面前，作为AI重要分支之一的知识图谱似乎不那么出位。但是以应用度和脑洞指数来说，这个技术绝对当仁不让。更重要的是，在“AI感知”通向“AI理解”的大路上，知识图谱近乎是无法绕开的一道关卡。
更更重要的是——他能帮你答题啊……

知识图谱是什么鬼？

知识图谱这个概念被提出并不算太久，但是要追根溯源理解这个技术到底是玩什么的，那可能真要往上倒腾几十年才行。
上世纪40年代，人工智能被提出之后，无数科学家们就开始琢磨，到底用什么方式能让机器模拟出人的智慧呢？琢磨来琢磨去，人对于信息能够进行关联理解似乎是个路子。所谓信息关联，就是人类在接受一个信息后，会把它放在记忆中进行归纳和调用。
比如说你打小认识了你三舅，绝不可能过几年管他叫二哥…
利用这个思路，上世纪50年代末，学术界提出了语义网络（semantic network）的设想，打算把数据进行结构化的处理，让单个信息组合成有联系、能共鸣的“知识”。今天我们用到的很多技术都来源于语义网络，比如机器翻译、自然语言处理等等，知识图谱也是其中之一。
上世纪80年代，受到多方面刺激的地球人开始了一次AI复兴运动，而这次运动的主角，就是各国开始打造专家系统和知识库。那时候科学家们相信，如果把人类大量知识进行逻辑化关联和语义网络存储，最终人类就能打造出全知全能，啥啥都懂的人工智能。
可惜好景不长，最终AI没等类呢PC先来了，专家系统纷纷被弃置。但是海量知识构成的知识库却成为了宝物流传了下来。
2002年，基于语义web技术和Freebase等优质知识库，谷歌宣布推出了知识图谱（Knowledge Graph）概念，并在2013年投入使用。所谓知识图谱，实际上是建立在网页百科知识库基础上，利用语义网络进行知识关联的技术。它可以用来帮助学术人员快速搜集和理解信息，也可以用来分析情报，辨别信息真伪。在产业端则为搜索、内容推荐和智能问答提供了基础，成为今天AI领域不是十分热门，却也足够强势的一个技术类别。
如果说了这么多还没明白，那就举个直白的例子吧：
假如你这几天很好奇一个叫PGone的词为啥火了。然后你去搜索一下，结果给你推荐的词是PGtwo、PGthree…那你就跟没搜一样。假如蹦出来两个词，一个是贾乃亮一个是地沟油，那么你就了然了嘛…
所谓的知识图谱，就是让智能体去理解知识之间网络关系，并能主动以此提供服务的技术。

今天的知识图谱专治各种“撒币”

假如你以为本文到此就该结束了，那么你又错了…
上文说了知识图谱专治各种“大撒币”行为，并不是随便讲讲的。我们要知道，2002年知识图谱技术假如跟王思聪刚一波正面，那是基本没有胜算的。

这里有几种可能：首先是假如你的知识库是更新到前年的，人家问你PGone的嫂子是谁你怎么办？或者人家不问你长城有多长，问你最长的墙有多长怎么办？
在考教真人的直播答题过程中，可能面临各种语言上的调整、提问方式的改变，以及加入最新信息。这都是几年前基于单一结构知识库的知识图谱技术难以胜任的。
这就把知识图谱难住了吗？不能够，毕竟为答题而生，必须要搞点新高度出来才行。
这项技术在近几年间发生了重要变化，比如：

大数据+机器学习带来了史无前例的效率契机。
今天的AI复兴，是建立在机器学习驱动大数据的基础上的，知识图谱也是如此。举例来说，百度的知识图谱技术，是建立在百度搜索和百度百科、百度问答等搭建起的最庞大中文信息库之上，为百度酝酿知识图谱提供了核心数据支撑。而在机器学习、深度学习领域的积累，则让百度知识图谱技术实现了及时化、逐步完善图谱关联强度和理解力提升。换句话说，百度这类AI巨头掌握的知识图谱技术，具有高度的即时性和成长性。往往网友不知道的，知识图谱已经先知道了。
语音交互成为启动知识图谱的新形式。
知识图谱想要真的为人类所用，那么就不能是人类用固定方式去出发知识图谱的模板。而应该是知识图谱主动理解人类的语言和思维习惯，做到主动输出服务。这就需要知识图谱与语音交互紧密结合
强语义理解能力成为关键。
能听懂“长城有多长”，却听不懂“长城从东到西一共多少距离”的知识图谱，显然是知识没谱。深度学习各种语意、语义、语序和方言的知识图谱能力，也成为了目前知识图谱技术的唤醒核心。
这几种能力加持下，把知识图谱伪装成选手去搞点“撒币”，显然已经不算什么了…但是如果只干这点事，其实也蛮亏的。
撒出一个明天
无论是语音交互还是机器视觉，我们今天正在努力教会AI一件事，就是识别。可是，在识别之后呢？AI下一步要干什么？
识别的下一步当然是理解和处理，但如果想让AI开启这些能力，很多人都认为，知识图谱的爆发将是AI下一步的必经之路。
今天知识图谱的核心，在于通过数据生成可视化的知识链条，用链条形成网络，利用网络来进行预测、生成自动化，最终生成机器主动提供的智能化服务。
要知道，人类理解世界并不是基于一个个散乱的信息，而是基于信息背后的“知识”。
我们期待的知识图谱技术，是通过这种技术的完善，把AI调整到主动输出服务模式。经典计算阶段是你想到的，电脑帮你做出来。而知识图谱时代，是你想不到的，AI可以想到。

能做到这一步的AI技术，当然不会只满足去答答题，做个直播。人家的使命是改变世界好不好？
其实，知识图谱作为一种隐藏的后端技术，今天已经悄然布局在了我们的生活。比如我们今天在百度搜“李白写过哪些饮酒诗？”，已经不是跳出来有这些关键词的网站，而是直接跳出来你的答案，这背后就是知识图谱即使已经解答了你的问题。
更重要的是，知识图谱技术作为AI交互手段的必要触达点，正在为其他AI产业提供帮助，比如智能处理、无人驾驶。
更远的未来，或许是利用知识图谱技术达成物联网间的协作、人机交互的全新升级，那么最终所能抵达的，远远不是答题这一件小事而已。
所以，直播平台上谁给谁撒币，谁是大撒币，其实也不是很重要了。真正重要的是，技术正在努力把未来的币，撒到现在的土壤里。

作者：脑极体，微信公众号：脑极体