从 500 万到 1.4 亿次请求,对话即交互将成为主流

对话百度首席科学家吴恩达

前不久Robin在乌镇大会上说靠移动互联网的风口已经没有可能再出现独角兽了,市场已经进入相对平稳的发展阶段,百度下一个瞄准的机会是人工智能。

这些年,跟「人工智能」、「语音交互」这些前沿热词走得最近的中国互联网公司恐怕就是百度了。今年7月,MIT科技评论也把“2016全球最智能50家公司”的第二名给了百度。而这个榜单上,Google母公司Alphabet位列第8。

11月22日,坐镇百度硅谷实验室的百度首席科学家吴恩达(Andrew Ng)在百度语音平台3周年庆典上现身,其演讲也围绕着「语音交互」和「人工智能」两大主题。

其实不管是百度的人工智能战略,还是被反复提及的语音交互技术,认同者总是远远少于嘲讽者的。在火爆的共享出行、支付等领域已失先机,百度还能在一直偏爱的「语音交互」和「人工智能」两个领域里再现辉煌吗?

三年后的百度语音开放平台交出了这样一份答卷:

2013年10月上线以来,每日在线语音识别请求从2013年的500万上升到今天的1亿4千万,在线语音合成每日请求达2亿,开发者数量超过14万。在技术指标方面,百度语音识别准确率目前已达97%。

得益于锤子科技CEO罗永浩在其发布会上提到的「97%的中文识别准确率」,97%是业界的最高水平已经众所周知了,但为什么Google、微软这些在语音技术领域投入巨大的公司,目前都未曾把「识别准确率超过97%」这个数据再往前提升,面对这样的问题,吴恩达在会后的采访中给了 PMCAFF 这样的答案:

有的时候你拿到一段音频,完全是噪音,无论你技术多么好也真的没办法识别出来,其实你的准确率越高,你再想把它提得更高挑战会更大,比如我们的长语音识别,很多场景下一个麦克风真的很难识别出用户到底在说什么,我们必须增加更多地设备来提高识别率。关于97%的最高识别准确率我们当然还会继续研究优化,但更多的是我们会在具体的场景下把效果做进一步的优化,达到比较好的效果。

输入法、智能机器人、语音搜索等已经产品化的功能可以被归类为语音交互技术在前端的应用,以精确、个性化的识别为主,而后端的智能学习(包含云计算、大数据、深度学习等领域)的投入注定是高昂的,而两者的工作量级存在着天壤之别,大部分在AI领域有投入的公司都是后者弱前者强。

如果把这个领域的探索比作新航路的开辟,那么吴恩达和他的团队无疑是百度在这个领域的「掌舵人」,关于百度在语音开放平台的新动作和人工智能领域的探索,吴恩达在会后接受了 PMCAFF 的专访。

(以下内容根据PMCAFF专访实录整理)

Q:百度这三年来在语音交互领域主要进行了哪些探索?

吴恩达:我们的百度语音开放平台在这个领域做了很多努力,技术方面,我们主要围绕语音合成、语音识别、语义理解和语音唤醒四个方面去做。

第一个是语音识别,我们做到了业内97%的高识别率并且支持离线在线一体化的解决方案。

第二是个语音合成,百度可以做到更具情感、更接近真人的发音,主要是通过大语料库拼接和HTS混合语音合成系统以及嵌入式LSTM语音合成系统,这一项技术已经在读者杂志的数字农家书屋上进行了应用。

第三是语义理解,这方面我们已经支持68个垂类需求的语义解析,可以做到多轮语义的理解和对话。

第四个是语音唤醒,我们做了一套远场的识别和唤醒方案,3-5米的物理距离内实现智能操作,目前可以做到95%的唤醒率。

Q:在97%的中文识别准确率上继续提升,还需要克服哪些瓶颈和困难?

吴恩达: 我认为语音识别目前还有两个主要的挑战:第一个是对于长语句的识别。在没有上下文的情景下,我们的系统对短句子的识别甚至可以超过人类的水平,但如果加上复杂的场景,比如在长对话的语境下,人类还是要强于机器的识别效果的,第二个挑战就是我们希望机器能够理解文本的内容,利用上下文的信息作出更人性的反馈。

Q:百度为什么选择永久免费的提供语音技术的接口?目前的合作中有没有一些印象深刻的案例?

吴恩达:智能语音技术其实对创业公司的技术要求很高,百度希望更多地开发者能够无门槛地使用先进的语音技术,帮助他们做出更优秀的产品和用户体验,比如智能家居加上语音技术其实真的能够提高生活质量,所以我们也希望这样的技术能够尽快普及。

爱奇艺已经利用我们的长语音识别技术加上搜索做出了不错的效果。视频产品的功能和内容都比较多,用户的需求也很复杂,这个时候搜索就要比点击的效率高很多,通过百度开放平台的长语音识别技术,爱奇艺优化了长 Query、口语化、语音识别错误等问题,现在用户已经可以用上一个非常棒的语音搜索体验了。我觉得语音会驱动我们改变未来人机交互的方式,所以我还是很期待的。

Q:您如何看待中国当前流行的这波人工智能浪潮?您觉得大公司在这个领域里靠什么来构建竞争壁垒?

吴恩达:我来中国的时间比较长,第一个问题上还是深有感触的,中国有一项非常优秀的技术,就是超级计算机,虽然我们现在数据量很大,但其实还不够,如果超算能够把速度提得更快,我们确信,人工智能可以做得更好。

百度几年前就开始自建GPU集群,用来处理百亿级别的图像、视频以及定位数据等等。我们已经使用万亿级别的参数来训练我们的神经网络。我觉得数据的获取和组织可以算作一个优势或者说壁垒吧,举个例子,比如传统的语音识别模式大概是这样:数据(音频)—语音特征—现象—语言模型—转换结果,但后来我们开始采用Deep Speech 模式来进行端对端的学习,用神经元来训练语音识别,整个过程可以说是进步巨大的:2012年错误率17%,2013年错误率13%,2014年错误率8.5%,2015年错误率5.5%,2016年错误率3.5%。

我们确信,未来不管是对消费者还是公司而言,AI都能产生巨大的价值,我们现在在产品上的很多探索更多的其实目标并不是收入,而是数据。

关键字:业界动态, 市场, 语音

版权声明

本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部