从智障到智能,语音交互对智能座舱的重要性

在聊智能座舱中的语音交互技术之前,我们先来插播一条新闻:5月14日,OpenAI宣布推出GPT-4o,据说GPT-4o在处理速度上提升了高达200%,同时在价格上也实现了50%的下降,GPT-4o所有功能包括视觉、联网、记忆、执行代码以及GPT Store等,后续将对所有用户免费开放。

不得不说,在IA赛道上,我们国内厂商又被甩了半步!

GPT-4o的名称中“o”代表Omni,即全能的意思,凸显了其多功能的特性,GPT-4o是OpenAI为聊天机器人ChatGPT发布的语言模型,“可以实时对音频、视觉和文本进行推理,新模型使ChatGPT能够处理50种不同的语言,同时提高了速度和质量。可以预期,GPT-4o的能力接入智能座舱,将会给整个用户体验带来更大的想象空间。

当前每个车企都在全力发展语音交互技术,其中重要原因是语音交互几乎不占视觉和手部资源,从而可以大幅提高驾驶安全。车机屏幕中的大量视觉信息占用驾驶员的认知资源,从而引起驾驶员的分心。其次,基于屏幕的GUI交互需要驾驶员通过触摸或者按键的方式进行交互,前者需要驾驶员单手离开方向盘从而有可能引起安全风险,后者则效率低下。

从智能座舱语音交互技术发展来看,提升语音交互的使用效率和频率我认为主要由以下四点决定。

一、更自然的唤醒技术

部分语音技术供应商支持“免唤醒”和“one-shot”技术,“免唤醒”是指省略唤醒词直接说“打开车窗”,车窗就会直接打开。其实“免唤醒”正是用了唤醒词技术,只不过把默认唤醒词改为指令,新的唤醒词被命中后会直接执行相关指令。

“one-shot”技术也被称为“唤醒连说”,支持用户在说出唤醒词之后不作停顿,立刻说出后续需求。例如用户直接说“小艾同学帮我打开车窗”,小艾同学就能直接把车窗打开。这种方式摒弃传统的一问一答形式,极大减少了用户语音操控的步骤。

二、全双工语音交互

在几年前,由于部分语音交互技术暂未成熟,用户和语音助手的交互大多属于单轮交互或多轮交互,两种交互方式带来的问题是用户无法持续地向语音助手发起指令。单轮交互是指每次语音助手被唤醒后只能完成一项对话,不管任务能否被完成,语音助手都会进入休眠状态。多轮交互是指用户可以不用多次晚醒语音助手,双方可以通过多轮交流的方式完成一个任务,当任务完成后语音助手会自动进入休眠状态。

为了让语音交互拥有更自然和更高效率的体验,近年陆续有车企推出持续监听和全双工语音交互技术。持续监听可以理解为一旦唤醒语音助手,语音助手会把麦克风一直打开。用户可以一直说,语音助手会针对用户每一句话分别做出响应。

但是持续监听的体验依然存在很多问题,因为麦克风一直打开,语音助手会把所有的声音进行聆听并做出响应。假设上一轮对话未结束,这时候语音助手听到其他人说的话,误以为这是新的语音任务,会把上一轮对话直接结束并报新的内容。

相比简单地把麦克风打开,全双工语音交互不会像持续监听一样容易被噪声打断整个对话过程。要实现以上效果,全双工语音交互需要拥有更强的抗噪能力和上下文理解能力,它能理解声音是否跟当前任务有关,并且能猜测当前任务下一轮对话是什么,这对于技术的要求非常高。

全双工语音交互可以简单地理解为真正的“边听边说”,用户一旦习惯了全双工语音交互,就很难回到以上三种交互模式,所以全双工语音交互是提升语音交互的使用效率和频率的重要基础能力。

三、实现捷径

小鹏汽车 P7在2020年发布的官方视频中提到驾驶员进入座舱时对语音助手说一句话,系统会自动帮助驾驶员完成十几项步骤,极大提升了人和机器的交互效率。这项体验的背后是捷径的实现,捷径是指用户可以将若干操作选项按顺序整合在一起,并赋予一个指令,当指令被响应后,涉及的操作选项按顺序会依次执行。

尽管该技术跟语音交互没有太大的关系,但从用户心智来看,这是语音交互和人工智能技术带来的便利。

四、实现GUI和VUI融合

在上述的小鹏官方视频中也提到了驾驶员可以在23s内完成10轮语音交互对话,这项体验的背后是GUI和VUI融合的实现,它能让用户说出屏幕内容并被VUI执行,加上全双工语音交互技术实现“可见即可说”。

GUI和VUI融合为语音交互带来的好处是有效提升语音交互的使用频率,但融合背后有些问题也需要注意后面有时间我们再聊。

版权声明

本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部