讯飞输入法产品总监：语言技术的突破将加速认知革命和人工智能的实现

2016-10-24 09:45:00

这是PMCAFF专访的第3期。

这一期的对话大咖，是讯飞输入法产品总监@翟吉博。

从老罗的第一场发布会到今年10月18日的背水一战，讯飞这个熟悉而又神秘的名字就经常出现在我们的视线。

2010年发布的讯飞语音输入法，可以算是全球首款语音输入法。根据赛诺市场近日公布的《2016年Q3语音输入法行业分析报告》来看，2016年3季度，中国语音输入法市场规模为4.95亿，而讯飞输入法的语音用户渗透率达到了59%。

输入法，这一看似不起眼的场景，却占据了未来人机交互最重要的入口。

为什么讯飞输入法能在在竞品林立的环境中突围？达到老罗口中「97%的识别率」高识别率？语音交互技术在未来还会有哪些可能？

这些，讯飞输入法产品总监 @翟吉博给我们作出了解答。

（以下问答由PMCAFF产品社区采访讯飞输入法产品总监 @翟吉博的采访整理）

Q：市场上大部分输入法都有语音输入，讯飞在产品做差异化，保证核心竞争力上有过哪些尝试，或者是创新？

翟吉博：讯飞是最早支持语音输入的输入法，我们在2010年就推出了讯飞语音输入法，国内其他输入法一直到2012年才陆续支持语音输入。讯飞在产品上的尝试和创新都基于用户体验，让语音输入具有更广泛的普适性。

举例来说，讯飞的语音输入具备个性化识别功能，可以自动学习并适应用户使用习惯，直接用语音准确识别你手机通讯录里的人名，你用的越多，它越懂你；方言识别，让机器能够听懂方言，目前讯飞已经支持19种方言；离线识别，在没有网络环境情况下也能进行识别，讯飞输入法不仅能在离线时使用语音输入，还能在复杂的网络情况下自动切换在线和离线语音；语音翻译也就是“随声译”功能，能够说中文出英文，说英文出中文，增进不同人群的沟通。

以上这些都是讯飞自主研发的语音识别技术，并且已经在讯飞输入法上得到应用，这是市面上其他输入法语音输入无法实现的。

Q：输入法语音识别技术有哪些难点？

翟吉博：正所谓“识别一秒钟，线下十年功”。事实上，在极短时间内，输入法的语音识别系统经历了一个极为复杂的分析过程。导致语音识别出现问题的原因有很多。比如：

（1）不可避免的发音人“口音差异”。不仅是南北口音差异，每个人都有独有的发音习惯，需要不同的海量数据进行适应训练，使语音识别系统习惯不同人的发音。

（2）环境噪声干扰。在语音输入过程中，机器不像人耳很难分辨出说话人声和环境噪声，容易把所有的声音都进行识别，同时噪声对说话人声也产生干扰。

（3）网络因素。在线语音识别需要通过网络在服务端与客户端传输数据，网络质量差或传输不稳定易导致语音识别慢、效果差。

Q：目前讯飞在中文语音识别方面口碑不错，为什么会比准确度比其他产品高？

翟吉博：讯飞研发了一种名为前馈型序列记忆网络FSMN (Feed-forward Sequential Memory Network) 的新框架。这个框架可以把DNN、主流的双向RNNRNN很好地融合，同时各个技术点对效果的提升可以获得叠加；同时研发一种名为深度全序列卷积神经网络（Deep Fully Convolutional Neural Network，DFCNN）的语音识别框架，使用大量的卷积层直接对整句语音信号进行建模，更好地表达了语音的长时相关性。

此外讯飞还分析算法的计算特点，搭建了一套快速的深度学习计算平台——深度学习平台，大大提升训练效率，加快深度学习相关应用的研究进程，使得在语音识别的准确率逐步提升，达到业界最高。

Q：方言识别、中英文混合输入优化、个性化定制会成为未来讯飞优化的重点吗？

翟吉博：实用、个性化的语音技术是未来讯飞输入法的发展方向。无论方言识别、中英文混合输入优化、个性化定制，我们可以把语音识别拓展到更多生活场景中去，不断地给用户提供更好的用户体验。

Q：从Smartisan T1到Smartisan M1为什么会选择一直跟锤子合作？

翟吉博：讯飞始终认为语音是未来人机交互的发展方向，语音以后会取代键盘、触摸屏成为手机上主流的交互方式。在对未来人机交互方式的理解上，老罗和讯飞高度一致，所以在老罗做T1的时候就已经和讯飞合作，并且一直到M1锤子的手机都在使用讯飞的语音技术；另外，除了对技术的需求，老罗和讯飞对工匠精神的追求也高度一致。

Q：语音输入的场景相对来说较窄，对使用环境要求也较高，为什么讯飞会选择语音输入作为切入点？

翟吉博：讯飞认为人工智能将会像水和电一样进入我们每个人的生活，万物互联将成为现实，而语音将成为人机交互的刚需，如果在语音和语言技术方面突破，将加速认知革命和人工智能的实现。语音输入对机器而言就是“语音识别”的能力，相当于“机器的听觉系统”，让机器通过识别和理解，把语音信号转变为相应的文本或指令。

2010年，科大讯飞发布了全球首款语音输入法——讯飞输入法；

2012年开放了语音理解和智能问答，这些能力可以解决在交互中理解用户语意；

2014年在交互上帮助合作伙伴语音唤醒，声纹识别，人脸识别和语音测评，提出的“讯飞超脑”计划，希望实现机器从“能听会说”到“能理解会思考”的转变，即感知智能发展到认知智能。

而语音输入正是人工智能发展的大基础，需要不断夯实。

Q：百度硅谷推语音输入法TalkType，希望将语音输入的优先级提升到键盘输入之上，您如何看待这样的情况？

翟吉博：目前用户体验最好的输入方式是集合语音、拼音和手写输入。所以讯飞输入法在同一界面实现语音、拼音、手写输入免切换，更加符合用户使用习惯，用户可以在不同场景选择最适合自己的输入方式。

值得注意的是，百度TalkType也只是一种尝试，因为在语言、文化、风俗、习惯等方面存在差异化，所以目前TalkType只有英文输入；另一方面，使用TalkType语音输入过程中，用户选字、发表情等还是需用手来选，语音交互体验上还有待提升。

Q：现有的输入法会做一些诸如个性化的词库、记忆输入等优化，讯飞在个性化功能上有过哪些尝试？效果如何？

翟吉博：在语音方面，不仅有离线语音、方言语音、语音翻译，还能在语音输入中智能添加标点，具有个人语音词库、联系人识别等，用解决了语音用户的输入痛点；在手写方面，支持多字叠写、多字连写以及手写笔迹特效（模拟毛笔、荧光笔）；在输入法上独创了音乐皮肤、动态皮肤、百变皮肤等个性化界面，融合视觉、听觉和触觉，带来不一般的输入体验。

Q：现在年轻人使用表情包的人群比重较大，讯飞在这部分有打算和考量吗？

翟吉博：其实讯飞输入法早在2013年就开始扩充颜文字的内容了，并且去年和B站做过一次声势浩大的颜文字补全计划活动。今年4月份，讯飞输入法产品内上线斗图功能，通过产品的改进让用户在聊天过程中可以迅速使用各种表情包，成为斗图高手。目前表情商店的“斗图”每日都会更新表情，很受年轻用户群的喜爱。

Q：中文中有很多同音词，语音输入中是如何做词义区分的？比如tongyi，如何确定为“同意”而非“同义”。

翟吉博：目前主流的大词汇量语音识别系统多采用统计模式识别技术，因此可能存在同音词识别难点。而讯飞应用个性化的方案，通过区分日常用语、搜索类、地图类、音乐类、数字数值类等多个应用场景，并分类划分文本训练数据和训练相应的应用个性化语言模型。

简单地说，讯飞输入法的语音识别过程会结合上下文关系和应用场景（根据用户待输入文本框的属性），来智能选择相应的应用模型来进行识别，进而显著提升了特定类别下的识别效果和用户的感受。

Q：输入法作为人机交互的重要入口，比如目前跟高德地图有语音导航上的合作，你觉得输入法未来还有发展方向？

翟吉博：我理解为你说的是使用场景，你提到的车载场景会是一个方向，目前讯飞有自己的车载业务线，搭载讯飞人机交互技术的轿车前装出货车型和在研车型近百款；另一个场景是家庭，随着语音技术的成熟和智能硬件的发展，语音输入的应用会逐渐从手机渗透到家庭，国内主流电视厂商几乎采用的都是讯飞的语音交互技术，新的交互方式会大大减少用户操作电视的步骤。、

文|PMedia

关键字：产品经理, 语音

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！