语音交互规范(第一讲)
一、AI语音交互发展
语音交互的发展经历了三个阶段:
第一阶段是上世纪80年代,语音交互能够实现一问一答,前后回答并不具有内容的相关性。随着人工智能和深度学习的发展,机器的理解能力越来越强。
自从2009年开始,随着iPhone手机siri的出现,进入第二阶段,语音的对话能做到有问有答,能够理解上下文,但是这种应用场景还比较局限。
第三阶段,2014年Amazon Echo的出现,实现了应用领域的革新,拓展了语音交互的场景,智能语音交互的爆发则在2017年智能音响的发展,语音交互得到巨大的突破,语音和语意的理解更加准确,具有代表性的产品有小爱音响、天猫精灵和小度音响等。
二、什么是AI语音交互?
AI语音交互通俗的理解就是:人与机器的对话。语音交互在技术方面讲主要包括:听(ASR)、语义理解(NLP)、说(TTS)。
听(ASR):用ASR技术把语音识别成文字。
语义理解(NLP):使用NLP技术,把文字输入转化为文字输出。通过语法判断、上下文理解、关系理解、知识图谱等技术。就是理解文字的含义后,把想反馈的回答以文字表达出来。
说(TTS):使用TTS技术把文字合成为语音。
三、为什么要建立AI语音交互规范?
在公司角度:有统一的交互规范便于公司内部产品形成统一的共识,减少沟通的成本,提升工作的效率。
在设计师角度:对外有了统一的交互规范便于与产品、开发等人员的沟通,对内便于组织内的成员学习与提高。
在设计管理者的角度:对内能达成设计共识,对外提升设计组织的影响力。
在我看来交互规范是一个内部产品,它随着产品的生命周期迭代演进;交互规范是一套内部共识,它不仅仅解决了设计问题,更是组织协同的解药;交互规范是一种思维方式,不仅产品设计,甚至自己的生活都可以借鉴设计系统来提升效率。
四、AI语音交互规范主要内容是什么?
- 语音交互原则
- 语音交互框架
- 语音逻辑规范
- 语音控制原则
- 多模态交互
- 弹框机制
- 操作反馈
- 界面架构
- 情感化设计
五、语音交互的原则
1. 通用原则
及时反馈原则。用户在与系统进行语音交互的过程中,系统要给予及时的反馈。
合适的速度。语音的播报速度、结果呈现速度、IP形象展示的速度、文字展示及纠错的速度都在一个合适的范围内。
易取原则。尽量减少用户对操作目标的记忆负荷,交互动作和结果都是可见、可听的。
人性化帮助原则。在用户需要帮助的时候提供必要的帮助说明和引导。
灵活高效原则。语音交互可以跨越层级,直接高效的触达目标。
防错原则。在用户意图不明确的时候,可以向用户询问,还可以预测用户的可能的意图提示用户。
消除歧义。交互的形式和内容不会让用户感到困惑,当用户的命令存在歧义时,通过交互的形式消除歧义,帮助用户达成目标。
适应当地文化。语音的形象IP和话术的提问及回答都要符合用户所处的文化背景和地域文化。
2. 交互的可用性要素
轮流对话。在对话中基于信号的传递, 进行轮流的表达。回答的机制是一问一答。
上下文串联。在对话的语言中需要结合上下文的语意串联起来进行回答,这样有助于提升对话的准确性。
多样性。对于具体的场景,应该多样的问与答,结合情景多样性的回答。
理解行为。在对话的过程中尽可能的真诚、详实和有效的理解对话的内容。
反馈。对于用户的请求应给予反馈,无论是声音、文字还是图像。
语音的效率。在对话的过程中往往有一些隐晦的潜台词,在对话的过程中要理解口语之下的更深层次的意图,并给予准确的回答。
3. 人性化的表达
语言是人类表达情感的重要方式,在语音交互的过程中,人性化的设计必不可少的。状态可见原则。在整个语音交互的对话过程中,对于场景、角色都需要从人与人对话的角度出发。
对话的逻辑。语言对话逻辑应该遵循人类语言的本能,不应该强迫用户为了适应机器对话而采用层级递进的逻辑思维,用户只需要正常的表达就可以。
情感化。语音交互需要人格化、情感化。需要与产品的品牌调性相契合。语音人格方向特征具有:有趣、正能量、机智和温暖等特点。
口语。口语化的交流,同时也需要避免说显而易见的内容,对话需要多样性,使体验更加自然。
环境贴切。使用简单易懂和约定俗成的表达,尽可能的贴近用户所在的环境。
地方语言。语言的本身要有地域的特色,语音的表达要有广泛的群众基础,其中方言识别也是语音交互中重要的技能。
六、语音交互框架
1. 语音交互流程
一次完整的语音交互流程,包括:唤醒—ASR—NLP—Skill—TTS语音应答/界面结果展示(如下图所示)。
2. 语音交互框架
1)根据苹果公司的全品类设备的特点,在语音框架需保持一致,兼顾mac、paid、手机大小屏和横竖屏。Siri交互包括:Siri的状态、ASR内容/话术、语言TTS反馈。
3. 远场与近场
远场应用比如Siri。直接说:“Siri”唤醒语音助手,唤醒后可以远程进行语音交互。
近场应用比如智能电视。使用遥控器,按住语音键,对着遥控器进行语音近距离语音交互。
设计用例:
User:“Siri,定个闹钟”。
语音助手:“你要定什么时候呢?”
User:“明天早上8点”。
4. 正常/异常状态
正常状态:
语音交互的过程中,通过TTS和Siri状态(包括:等待与加载),来满足及时反馈。
异常状态:
语音交互过程中,判断外网终端->提示:待命+网络异常,请检查网络。
注:无界面时,直接TTS反馈:【网络异常,请检查网络】(要求TTS写在本地)。
5. 对话澄清
指语音主动与用户的对话,达到意图的确认。
说明 :
① 澄清应用于用户意图不清晰,必须进行再次对话才能进行意图确定,否则导致机器执行的任务错误。
② 假如在远程的交互中,澄清的过程中,需要语音一直处于待命状态(也就是无需再次唤起即可对话)。
③ 在澄清的过程中,需要关键词引导,以便于用户表达明确的意图。
④ 为了让用户能自然的回复和应答,同时也防止自然口语化,语音的澄清话术需要采取封闭式关键词引导。
⑤ 关键词的引导,根据人的记忆及听力的规则,每次小于等于3个,且近俩个每句话术文字在7±2之间。
设计用例:
User:“帮我定下明天闹钟?”(意图不明)
语音助手:“你要定几点闹钟?”(几点钟为关键词)
Uesr:“明天早上8:00”(意图明确)
6. 多伦对话
多轮对话指语音助手与用户进行一轮(一问一答)以上的对话。
说明:
① 应用于意图虽然清楚、可执行,但任务执行结果不清晰。如:结果的集合过大,用户没有找到具体的内容。
② 多轮的引导,应能帮助用户完成任务,同时防止用户自然语言的发散。
③ 多轮对话的轮次意味着用户与智能设备的多次交流。在搜索工具语言中,语音交互较快的达到目标是关键,轮次越多代表执行的效果不理想,通常以小于3轮较为合适。但是在闲聊类型功能中,轮次越多,代表用户聊天的意愿越强。
设计用例:
User:“能帮我找一下好看的电视剧吗?”(意图清晰,任务集合过大)
语音助手:“你要看中国的?还是国外的?”(关键词引导)
User:“中国的”(意图明确)。
7. 话术
话术指用户与智能设备对话的形式。
说明:
① 话术来源:a 语音产品中需要互动交流产生场景话术;b基于人与人对话的原则撰写而成的话术。
设计用例:
8. 话术(TTS)设计
语音话术指在语音交互过程中语音助手通过语言与用户进行互动,包括文字话术和语音话术。
说明:
① 显示的文字话术与语音助手的形象关联,并配合出现。
② 显示话术与当前语音逻辑相呼应。
③ 语音话术:用户发出请求后,需要给予语音应答。比如:“定今天下午3点闹钟”,反馈;“好的,已经定好下午3点闹钟”。
④ 声音及文字:引导过程中,根据业务的需要进行声音与文字的引导。
声音引导:引导澄清用户的意图。
文字引导:语音域中的引导话术。
声音+文字引导:比如问题及内容的搜索结果。
⑤ 运营类话术:针对高频词的结果及当前热门的内容,定制化的话术,目的是增加产品的情感,更加贴切用户的反馈。实现的方式:由运营后台配置。
9. 用户对话引导
语言具有自然性,为了避免用户语言的随意泛化,导致用户指令无法识别,需要在语音中进行话术规范性引导。
说明:
引导话术结构-“唤醒方式+需引导的技能话术”。
① 全局性引导。由话术平台统一部署,引导分为3类:
- 语音更能引导;
- 当下热门内容引导;
- 新上线或主推功能引导。
② 相关域引导。在语音交互过程中,提供当前领域的相关话术引导。分为两类:
- 当前领域中多维度的引导;
- 多轮进阶式引导。
③ 运营类的引导。专门为运营类产品定制的语音话术引导。
10. 情感表达机制
语音交互人性化,是语音交互重要特征之一。
说明:
基础状态:
- 唤醒状态;
- 待命;
- 加载;
- 免唤醒;
- 声源定位。
基础情绪:
- 欢呼;
- 陪伴;
- 安抚;
- 帮助;
- 其他(更多的类型根据业务需要进行添加)
基础情绪的表达(如图所示):
七、小结
语音交互规范主要内容分为:
- 语音交互原则
- 语音交互框架
- 语音逻辑规范
- 语音控制原则
- 多模态交互
- 弹框机制
- 操作反馈
- 界面架构
- 情感化设计
本篇仅写了:(1)语音交互原则(2)语音交互框架,后续分为3篇完成,谢谢大家阅读,后续内容敬请期待!
本文作者 @东哥的设计分享
版权声明
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!