为什么国内的智能音箱话题虽热，却产生不了百万级的爆品？

2017-07-05 23:08:00

本文作者尝试着从技术瓶颈、用户心理、销售渠道等不同角度来解释国内的智能音箱话题虽热，但产生不了百万级的爆品的原因，也畅想一下智能音箱的未来。

这篇文章本来农历年就打算写完，发出来，但是几个月内，智能音箱一下子成为了各大公司的聚焦点，感觉再不写，这个话题都过时了，可叹变化太快。

笔者曾在2015年和team艰苦奋战，致力打造中国版的echo，完成产品后由于公司战略调整，方案搁置，但是回头看来，当时的音箱方案哪怕放在现在，从识别的准确率到人机交互的流畅性来看都是具备竞争力的。

也是从那个时候对智能音箱产生了不可割舍的情愫。两年过去了，智能音箱携AI大热的风潮席卷而来，不下几十个厂商要把这片蓝海催成血海，但是成功的经验一般都是不可复制的，天时地利人和缺一不可，笔者尝试着从技术瓶颈、用户心理、销售渠道等不同角度来解释为什么国内的智能音箱话题虽热，但却产生不了百万级的爆品的原因，也畅想一下智能音箱的未来。

一、国情问题

“橘生淮南则为橘生于淮北则为枳 ”，这句话是我在Echo美国大火，国内厂商纷纷杀入音箱市场后，脑子里经常闪现的一句话，所以我一直想从两国国情不同的层面去解释，为什么国内的智能音箱总是不温不火。

科技类产品，两类会大火：

产品从无到有，解决了普遍的刚需问题，如：马车→ 汽车、写信→电话…
产品在已有的庞大市场里进行技术革新、更新换代：汽车→特斯拉、功能手机→iPhone……

所以，Echo在美国的火爆应该属于第二者，说明在北美以及欧洲市场里，音箱应该是一个庞大存量市场，从发达国家对付费音乐的购买力就能管窥蠡测，而且街头文化，party文化的盛行，为了嗨起来，让音箱有了大量的使用场景。 Echo在存量市场里进行智能化，诱使用户为产品更新买单，这是非常合理的商业化方式，就像我们一直在追逐新款的手机一样。

反观国内市场，居家必备的电视毋庸置疑成为了智能化最普遍的设备，而音箱并不是一个大的品类，我们没有那么大的房间，需要嗨音量、音乐鉴赏力的不足，使用户并没有动力去购买高品质的音箱，大部分时候还是靠手机公放来解决问题。

这时候智能音箱面对的用户群就缩的很窄了，大致分为两类人：

智能硬件爱好者
音箱类产品的升级换代

可想而知在这两类人群中想要获取巨大的销售量是很难得，所以说国情问题是制约国产Echo们大麦的一个先决条件。

上面所说的都是在理性消费中用户会做出的选择，但我们都有因为冲动而为产品买单的经历，其中产品的颜值就是影响用户购买产品决策的重要一环。下面我们说说国产Echo们的颜值问题。

二、颜值问题

对智能硬件我更是认为是一个442的组合，颜值也就是工业设计和产品设计要占到百分之四十，这部分满足用户的冲动消费或者审美特性；产品的性能占比百分之四十，智能化占比百分之二十，在满足硬件功能本身加入智能化才是培养用户使用习惯阶段的AI思路。

下面对比一下国内厂商和Echo外观的区别：

Echo整体呈圆柱体，长宽比例给人以非常修长的感觉，像一个纤瘦的姑娘，亭亭玉立；
黑色给人以金属质感，科技范儿十足，满足了装B的特性；
一半透孔的设计，很有层次感，不会让人满身都是喇叭的感觉；
顶部的灯带颜色多变、艳丽，指导性和美感兼具；
…..

这样一个颜值一流的音箱，哪怕只作为摆设陈设在家中，也会给家中增强科技感，何况他还能播放音乐呢？这就给在意颜值的冲动消费者提供了购买动机。

再回头看看国内的智能音箱……一声呵呵以后，我就不评价了，公道自在人心。

前面所说的都是影响产品的一些外界因素，但是如果产品真的特别好用，产生了刚需黏性，那其实也是不必考虑的，那国产的Echo们在决绝用户真实场景下是否表现优良呢?

三、先解决一个核心问题再说

貌似不是的，进入AI时代，厂商们就忘记了互联网成功的奥义，起码要要垂直把刚需场景做深，解决一些核心问题之后，再横向把功能做广做全，但是现在厂商往往宣传的时候，都是“我有100个功能”，“我有200个功能”，“选我选我”，殊不知连核心的音乐、操控、有声音频的功能都做不好，添一堆没有用的附加功能又有何用？

拿闲聊这个功能举例，如果NLU层面的Intent Classifier做的不好，就会频繁的将功能触发丢到闲聊里作为兜底，这样就会出一些吐血的回复，比如用户表述“李宗盛的曲子来听听”，这时候给你回复一个“林忆莲不错，为啥他们要分开呢”，你作何感想……分分钟砸掉音箱。

反观Echo，在音乐场景下3年前的搜索维度就已经秒杀众多国内厂商了，而且在刚开始做的时候，技能也不多，基本不和你扯闲聊，碰到不会的问题，都是“I can not understand”，这样既降低了用户的预期，减少了犯错的几率，更能让用户聚焦核心功能，而不是几个回合，用各种各样的功能把它玩儿坏了。

目前国产音箱们依然停留在指令式的要啥给啥的阶段，无非是按照技术思维，在语义层面增加各种搜索维度罢了，基本停留在3 年前的助手水准（来首摇滚乐、听周杰伦的歌、更变态的还有方文山作词的歌曲，这也是醉了），反而没有解决一些核心的听歌体验，比如：音乐和有声书的资源名称重合，一字歌两字歌的区分，什么时候歌名或者歌手名直接触发音乐。就更别提用户画像到个性化推荐，人类基本常识到空间与时间的结合，压根没有深挖。笔者碰到的音箱基本都会在深夜，突然播放一首重金属摇滚乐，把自己吓得半死；要么是随意点歌，点不到自己喜欢的调调，这样的音箱…

我还是调成蓝牙模式吧！

音箱作为非必需品，想改变用户的交互形态，就要让用户获取内容足够便捷、成功率高、失败成本低，所以无论是音箱厂商，还是AI技术厂商，都必须将思路进行升级，从“所说即所得”，变成“听懂画外音，所想既所得”，这样才能说AI升级了，变得更加有灵性。但智能硬件不同于传统的APP，尤其是智能音箱，光是想在任何场景下都能唤醒，就已经很不容易了，这就需要硬件和软件进行融合，下面我们就说说软硬结合的重要性。

四、软硬结合、体验为王

智能音箱并不是新鲜物种，可语音交互的智能音箱早在2014前后就已经问世，比如小智音箱以及讯飞X1，只不过当时的交互技术以及麦克风阵列方案并不成熟，并没有达到回升消除以及声源定位，也无法达到基本的handfree。

所以从全局来看智能音箱，并不能简单理解为传统音箱+语音交互技术，它是集麦克风阵列技术、信号处理技术、语音交互技术、定制化的流媒体服务等多种技术和服务的组合，中间有一个环节产生偏差，就会导致最后的效果大打折扣。

这其中麦克风阵列尤其重要，以下是麦克风阵列的功能：

在图上看着可能有点晦涩，说白了，麦克风阵列主要解决的就是：

在有外界声音干扰的情况下，如何尽可能真实的还原说话人下达的指令，并发送给语音识别引擎，最终达成说话人的任务
多角度识别问题

有几个场景可以充分说明这个问题：

播放打断：即音乐播放过程中，你想唤醒智能音箱
鸡尾酒会问题：几个朋友一起吹牛X，或者有其他声音播放，音箱在中间，有人像智能音箱发送指令，这时候该听谁的？
混响问题：在家里说话，声音通过各种墙面和障碍物反射后，如果直接进入识别引擎，这样与无混响模式下训练的引擎，在编解码上是不一致的，就像我们玩的传话游戏一样，到最后得到的结果和初始含义，基本是不相同的。

所以针对这几个场景，必须使用麦克风阵列的几个核心技术来解决，那就是回声消除、声源定位、波束形成。

简单地说，回声消除就是将麦克风阵列拾音时，是可以得到播放声音+人声的，而播放声音作为一路信号传递给音箱，这时候做减法，就可以得到人声，从而实现播放打断，然后发送指令的功效，当然只是简单的描述，因为打断的效果需要将麦克风阵列和识别引擎一起优化，通过精准的测试数据调整麦克风阵列的模式和参数，想达到稳定且准确是一件很不容易的事情。

声源定位和波束形成可以理解为麦克风阵列只针对某个麦克风的角度进行拾音，从而增大某一说话人角度，抑制或者屏蔽其他角度的声音，从而达到还原真实说话人的目的。

说了这么多，麦克风阵列这么无敌，那该怎么使用呢？这就要提一下麦克风阵列的开孔和音箱墙体的设计了，大家一定很好奇，为什么现在的音箱都是一个圆圆的筒子，貌似都长一个样，只是弧度和大小有差别，这就和麦克风阵列的特性有关系，导致目前做成这个形状是最好的。

理论上讲，D_MS 越大，远讲距离（音源与麦克的距离）就可以支持的越大
D_MS增大一倍，那么人说话的有效距离就相应增大一倍（一定范围内）

所以说智能音箱在设计时，绝不是简单的模块堆叠，想要达到良好的体验，必须有很好的硬件ID设计、工业设计以及良好的软件交互体验，这样才能达到用户的预期，如果你连打断唤醒这最开始的一步都做不好，那么后面有再花哨的服务和交互也是徒劳无功的。

而尝试便所有的音箱，在唤醒打断等方面，echo的确做的是最好的。

熟悉VUI交互的同学肯定知道，唤醒之后就需要ASR+NLU对用户表述的话进行语音到文字到意图的转换了，这里面的坑又在哪里呢？下面我们也简单的聊聊。

五、语音、语义与场景的结合

Echo为了做智能音箱收购大量的AI团队，将核心技术都绑在了自己身上，从而融会贯通，让Echo拥有了良好的语音交互体验，而很多音箱厂商，都会选择将ASR和NLU拆分开，选择不同AI公司的技术，然后拼成一个交互方案。除非深度绑定，否则这样的做法必然造成体验上的缺失，原因有以下几点：

1、语义纠错

家居场景下受混响、回声、噪音的干扰，识别结果的错误是必然的，这就要求后端的NLU引擎能理解错字中的语义，比如通过非监督学习，标注错别字和正确字的关系，通过语音识别的n-best输出，确定语义理解的阈值等。如果是一家公司，这些事情做起来没有壁垒，但是如果是两家公司呢？语音识别厂商不会输出那么多参数给你，而语义厂商也不会针对一个项目做这么多定制，最后导致产品不伦不类。

2、众多功能的优先级

现在的智能设备基本都是堆功能，别管用不用，以多取胜，但是不同的设备其实在功能的优先级上都是不同的，比如不考虑上下文的时候，同样说周杰伦，在音箱上是要听歌、在电视上是要看电影、在聊天里可能是百科，都是不一样的，如果采用通用的方案，这些功能只能是混乱的提供给用户，而正确的做法是要分设备和场景提供功能，进行功能深挖，考虑到用户使用时的诉求，这点上AI交互的设计和APP的交互设计，还差的挺远。

3、热词更新

互联网上每天都会产生大量的新词、热词，比如新的歌手，新的专辑，新的歌曲，这些词必须同步更新到ASR的语言模型和NLU的词典里，才能达到识别并理解的效果。想象一下，如果两者有一个没有更新，就会任务无法达成。

4、一些小花招

中英文混合识别，一直是音箱产品的痛点，一来引擎不知道何时切换中英文，二来中英文混合的数据量较小，难以训练处较好的模型（需求不大），所以圈子内的投机做法就是找一些Top英文歌手和歌曲，然后让通过中文引擎试验跑出来的中文识别引擎是什么字，之后识别结果一旦出现这些词，就mapping到英文词上，比如“我想听Justin Bieber的歌”，这句话到中文引擎会变成“我想听扎丝厅碧波尔的歌”，语言模型或者NLU中存着“扎丝厅碧波尔 = Justin Bieber” 这样的mapping关系，这样就可以不训练英文引擎的情况下，正确识别歌曲了

5、产品迭代的灵活性

说了这么多理由，还是因为如果自己没技术，指望众多厂商因为你一个项目做定制化，或者快速响应还是会慢，而且语音交互的产品和其他硬件产品还不一样，硬件产品某一个模块弱一点起码还能work，不影响体验，难以想象，智能音箱无法唤醒、无法识别、无法理解、没有内容，还怎么活。

虽然有很好的VUI交互了，但作为智能音箱，毕竟它是一个以流媒体点播为依托的内容载体，没有海量的内容作为支撑的话，也就脱离了用户真实的使用场景，但恰恰尴尬的就是流媒体内容都掌握在了少数巨头手里，该怎么进行整合呢？

六、内容和渠道的整合

流媒体内容之于智能音箱，就像子弹之于手枪一样，全语音交互、丰富的点播维度目的都是为了找到用户想听的内容，Echo拥有自己运营的Prime Music，而国内的智能音箱厂商呢？看看国内的音乐市场，海洋音乐的酷狗酷我被QQ音乐收编，显然QQ音乐成为了国内的垄断巨头，而QQ音乐资源的授权难度大之又大，其他的零零散散的，虾米音乐、百度音乐、网易云，内容和资源都不够全面，没法儿满足用户在音乐层面多样性的需求。

不仅内容层面，从用户获取上来说，国内的智能音箱玩家也面临着这尴尬，那就是技术厂商没有用户（比如讯飞、云知声、思必驰），自己做产品，没有销售渠道，没有用户基础，肯定扑街。而有用户的互联网厂商或者渠道商呢？他们是没有技术的，这样的切合点使技术厂商基本都会绑定有渠道有用户的厂商，比如讯飞+京东，喜马拉雅+猎户星空，但是这样的组合只能算是抱团取暖，远达不到颠覆产业的效果，原因就是用户量和渠道量还不够大，无法和Amazon的体量进行比较，讲到这里不得不佩服Amazon的布局能力，总是能先于产业一步，把持住上下游（硬件、算法、软件、内容、渠道），让自己长期处于领先优势。

说了这么多，唤醒+识别+语义+内容都搞定了，体验都这么好了，用户还是不买，为什么？那回过头来，可能需要想一下是不是在用户心智定位中对智能音箱厂商产生了不信任感，导致在兴趣->咨询->购买->分享，这一个经典的消费流程中断了挡。

七、如何赢得消费者的信任

定位之父特劳特去世不久，从他老人家的理论中可以看得出国内音箱厂商在消费者中的地位。

亚马逊在消费者心中是一家科技公司，从Kindle到FirePhone到Echo，从无人机到无人仓储到无人商店，这些表现都深深的在我心智中加持着亚马逊这家公司在科技领域的地位，Amazon = 科技，有时我甚至忽略了它也做电子商务，一家科技公司做音箱，对于消费者来说，这是靠谱的，从心智里不抗拒的。

而看看国内的这些音箱厂商呢？叮咚音箱可以联想到的品牌是京东、讯飞、玲珑科技……京东的品牌知名度倒是很高，目前的心智定位对于消费者来说，还是电子商务，讯飞的品牌知名度在消费者层面无感，玲珑科技就更加没有印象了，所以对于消费者来说，一个本来卖货的品牌，做高科技的智能音箱了，消费者心智中存在差异，对品牌不认可，也是理所当然的。

定位理论在消费电子市场是非常值得厂商思考的。因为不同于移动互联网APP，用户没有试错成本，消费电子产品需要用户花钱买单，这就需要吸引用户，取得用户对品牌的认知、认可和传播，所以智能音箱需要仔细想想品牌的定位，是否能让消费者觉得你的产品是靠谱的，才能乖乖的打开钱包，为产品买单。

八、买的多了才是平台

最后谈到一点，就是移动互联网上，大家都在犯的错，貌似在IOT时代，还是在犯，就是什么才是平台？说白了，用的人多了，你自然就是平台了（这里的平台，指的非技术平台，阿里云、京东云之类的，不在此描述范围），而初始以平台为目的的产品，最终基本都死得很快，反而像饿了吗、滴滴这样一开始以解决刚需为主的公司，再覆盖了海量用户之上，才打造了配送平台以及出行平台。

而国内的音箱厂商的目的其实都是想做IOT的入口的，叮咚依托于京东微联，其实也是这个目的。这样就会造成战略层的偏差，过分关注物联物通这部分的需求，比如控制空调啊、控制插座啊，以目前国民对智能设备的接受程度，还是要首先达到单品智能，再去想万物互联为好。

这里没有说提前布局不对的意思，但是如果排定优先级，我觉得更好的点播体验+海量内容才是诉求点，绝非控制更多的家电。

Echo不也是在卖的多了之后才有Skills平台，才有了10000多个Skills吗？卖了1000多台音箱，谁会在上面开发Skills呢？

九、说一个题外话

目前语音交互的产品主要解决了用户以下几个问题：

载体不方便输入和搜索，比如智能电视，比如智能音箱，这也是手机助手一直得不到广泛应用的地方，因为手机太方便输入了
大文本输入，比如语音输入法
特定场景下，不方便操作，handfree，比如车载产品

但是还有一种场景，有待提升，也决定着AI Device是否能更好的被人们接受。那就是业务智能和交互智能的关系。

业务智能是指产品本身具备的功能，比如空调的制冷，电饭煲的煮饭、台灯的开关，但正是由于这些设备本身功能的不够智能，导致其实用传统的交互手段就足够方便了，空调就那么几个按钮，不用语音一样可以解决90%以上的问题，遥控器也不是天天找不到，也不是天天抱着孩子，放不开手，这些场景都是长尾需求，不是主要场景，所以用语音交互频率就会大大下降，想像一下，如果空调可以支持只对着男人吹，不对着女人吹这个功能呢？这时候按钮上根本就承载不了这么多功能，操作起来也需要进行组合，用户自然就会用语音去操作。

想象一下iPhone 的点触屏替代诺基亚的键盘，不就是因为移动互联网时代的业务更加丰富了吗？我有几百个APP 没法用键盘操作，各种图片的旋转、放大、缩小，键盘都无法承载了，自然就转化成了更智能的交互。

所以，想让交互智能，必须先达到业务智能。