语音——下一个「多点触控」

2017-03-09 10:37:00

人与机器（电脑）互动的历史

19世纪初，出现了打孔这种方式和机器互动——其实我对这种方式也是不明所以，我理解就是通过纸条打孔与否，区别0和1，然后把纸条塞到计算机让其识别。

20世纪中期，键盘应用到计算机之中、鼠标诞生，成为流行至今的「人机交互」方式。

70年代，图形用户界面推向市场。更友好、更直观的互动方式，让小学生也懂得怎么使用计算机。（我记得1997年读初一的时候，学校电脑课中的电脑用的还是DOS操作系统，上机就拿一张磁盘，敲一大堆指令，如坠云端）

接下来的三十余年中，这种鼠标键盘输入、图形界面输出的人机互动方式一直没有根本性变化。

直到2007年，乔布斯在WWDC(苹果全球开发者大会)2007上展示一台叫做iPhone的设备，将一种新的人机互动方式——多点触控推向市场，带进普通消费者生活中。这种互动方式的意义之一——让上至99岁，下至1岁的人，都能更方便地和复杂的计算设备互动。

经过10年发展，这种交互方式已经深植我们脑海。记得有次开会，我们围坐在老板的笔记本电脑旁（没有触控屏幕的旧款笔记本），不下三个人，下意识地用手指去戳笔记本的屏幕——大家都以为是触控的～

那么，历史继续前进，会发生什么变化？

Echo

2014年9月，亚马逊推出智能音箱——Echo（单词中文意思：回声），给消费者带来了一种「新」的交互方式——语音。

其实说它「新」，可能有失偏颇，在Echo之前或同期，大厂Google、Apple、Microsoft等都有自己的「语音产品」面世。

Echo的意义，有点像当年的iPhone——iPhone重新定义了手机，带来体验最好的多点触控交互方式。而Echo，借助7麦克风阵列、语音助手Alexa等出色的设计，带来了现阶段体验最好的语音交互方式。

看看已经推出了5年的Siri，其实我有逼自己在尽量多的场景去使用Siri，但是效果真的不甚理想。在没有充电的状态下，需要用手长按唤醒，语音识别也不甚理想——特别是距离远的时候。语义分析个人感觉也是不尽如人意。

定位在家居的Echo，无论在语音识别、语义分析，还是作为上，算得上是市面上最出色的产品了——可惜Alexa目前不会讲中文～

去年在深圳参加亚马逊主办的「alexa SUMMIT」

同事将Echo Dot拆解了，可以看到围成一圈的麦克风和LED

国内的情况

去年有一天，办公室的一个白色音箱引起我的注意，一开始是觉得它调节音量的方式很酷，在音箱顶部，通过触控来调节，就是手指画一个圈，音量从小到大，反向再画一个圈，音量从大到小。而且还带LED灯效，逼格甚高。

真正「吓掉」我下巴的是它的语音交互功能，同事对着它说：叮咚叮咚，给爷讲个段子；叮咚叮咚，我想听周杰伦；叮咚叮咚，天气怎么样……然后它应对自如。

叮咚智能音箱

所以，在国内，已经有很多类似出门问问、科大讯飞、海知智能、索答科技等公司在这方面发力。

另外，听闻有公司在往这方面研究：以后要做到不需要唤醒指令，人在讲话，机器就可以识别你是不是在跟它讲话，从而选择是否作出回应——这就更接近自然人与自然人的交流了。

答案似乎已经很明晰了——