语音交互规范（第一讲）

东哥的设计分享 2023-08-01 20:09:04

一、AI语音交互发展

语音交互的发展经历了三个阶段：

第一阶段是上世纪80年代，语音交互能够实现一问一答，前后回答并不具有内容的相关性。随着人工智能和深度学习的发展，机器的理解能力越来越强。

自从2009年开始，随着iPhone手机siri的出现，进入第二阶段，语音的对话能做到有问有答，能够理解上下文，但是这种应用场景还比较局限。

第三阶段，2014年Amazon Echo的出现，实现了应用领域的革新，拓展了语音交互的场景，智能语音交互的爆发则在2017年智能音响的发展，语音交互得到巨大的突破，语音和语意的理解更加准确，具有代表性的产品有小爱音响、天猫精灵和小度音响等。

二、什么是AI语音交互？

AI语音交互通俗的理解就是：人与机器的对话。语音交互在技术方面讲主要包括：听（ASR）、语义理解（NLP）、说（TTS）。

听（ASR）：用ASR技术把语音识别成文字。

语义理解（NLP）：使用NLP技术，把文字输入转化为文字输出。通过语法判断、上下文理解、关系理解、知识图谱等技术。就是理解文字的含义后，把想反馈的回答以文字表达出来。

说（TTS）：使用TTS技术把文字合成为语音。

三、为什么要建立AI语音交互规范？

在公司角度：有统一的交互规范便于公司内部产品形成统一的共识，减少沟通的成本，提升工作的效率。

在设计师角度：对外有了统一的交互规范便于与产品、开发等人员的沟通，对内便于组织内的成员学习与提高。

在设计管理者的角度：对内能达成设计共识，对外提升设计组织的影响力。

在我看来交互规范是一个内部产品，它随着产品的生命周期迭代演进；交互规范是一套内部共识，它不仅仅解决了设计问题，更是组织协同的解药；交互规范是一种思维方式，不仅产品设计，甚至自己的生活都可以借鉴设计系统来提升效率。

四、AI语音交互规范主要内容是什么？

语音交互原则
语音交互框架
语音逻辑规范
语音控制原则
多模态交互
弹框机制
操作反馈
界面架构
情感化设计

五、语音交互的原则

1. 通用原则

及时反馈原则。用户在与系统进行语音交互的过程中，系统要给予及时的反馈。

合适的速度。语音的播报速度、结果呈现速度、IP形象展示的速度、文字展示及纠错的速度都在一个合适的范围内。

易取原则。尽量减少用户对操作目标的记忆负荷，交互动作和结果都是可见、可听的。

人性化帮助原则。在用户需要帮助的时候提供必要的帮助说明和引导。

灵活高效原则。语音交互可以跨越层级，直接高效的触达目标。

防错原则。在用户意图不明确的时候，可以向用户询问，还可以预测用户的可能的意图提示用户。

消除歧义。交互的形式和内容不会让用户感到困惑，当用户的命令存在歧义时，通过交互的形式消除歧义，帮助用户达成目标。

适应当地文化。语音的形象IP和话术的提问及回答都要符合用户所处的文化背景和地域文化。

2. 交互的可用性要素

轮流对话。在对话中基于信号的传递，进行轮流的表达。回答的机制是一问一答。

上下文串联。在对话的语言中需要结合上下文的语意串联起来进行回答，这样有助于提升对话的准确性。

多样性。对于具体的场景，应该多样的问与答，结合情景多样性的回答。

理解行为。在对话的过程中尽可能的真诚、详实和有效的理解对话的内容。

反馈。对于用户的请求应给予反馈，无论是声音、文字还是图像。

语音的效率。在对话的过程中往往有一些隐晦的潜台词，在对话的过程中要理解口语之下的更深层次的意图，并给予准确的回答。

3. 人性化的表达

语言是人类表达情感的重要方式，在语音交互的过程中，人性化的设计必不可少的。状态可见原则。在整个语音交互的对话过程中，对于场景、角色都需要从人与人对话的角度出发。

对话的逻辑。语言对话逻辑应该遵循人类语言的本能，不应该强迫用户为了适应机器对话而采用层级递进的逻辑思维，用户只需要正常的表达就可以。

情感化。语音交互需要人格化、情感化。需要与产品的品牌调性相契合。语音人格方向特征具有：有趣、正能量、机智和温暖等特点。

口语。口语化的交流，同时也需要避免说显而易见的内容，对话需要多样性，使体验更加自然。

环境贴切。使用简单易懂和约定俗成的表达，尽可能的贴近用户所在的环境。

地方语言。语言的本身要有地域的特色，语音的表达要有广泛的群众基础，其中方言识别也是语音交互中重要的技能。

六、语音交互框架

1. 语音交互流程

一次完整的语音交互流程，包括：唤醒—ASR—NLP—Skill—TTS语音应答/界面结果展示（如下图所示）。

AI语音交互规范（第一讲）

2. 语音交互框架

1）根据苹果公司的全品类设备的特点，在语音框架需保持一致，兼顾mac、paid、手机大小屏和横竖屏。Siri交互包括：Siri的状态、ASR内容/话术、语言TTS反馈。

AI语音交互规范（第一讲）

3. 远场与近场

远场应用比如Siri。直接说：“Siri”唤醒语音助手，唤醒后可以远程进行语音交互。

近场应用比如智能电视。使用遥控器，按住语音键，对着遥控器进行语音近距离语音交互。

设计用例：

User：“Siri，定个闹钟”。

语音助手：“你要定什么时候呢？”

User：“明天早上8点”。

4. 正常/异常状态

正常状态：

语音交互的过程中，通过TTS和Siri状态（包括：等待与加载），来满足及时反馈。

异常状态：

语音交互过程中，判断外网终端->提示：待命+网络异常，请检查网络。

注：无界面时，直接TTS反馈：【网络异常，请检查网络】（要求TTS写在本地）。

5. 对话澄清

指语音主动与用户的对话，达到意图的确认。

说明 ：

① 澄清应用于用户意图不清晰，必须进行再次对话才能进行意图确定，否则导致机器执行的任务错误。

② 假如在远程的交互中，澄清的过程中，需要语音一直处于待命状态（也就是无需再次唤起即可对话）。

③ 在澄清的过程中，需要关键词引导，以便于用户表达明确的意图。

④ 为了让用户能自然的回复和应答，同时也防止自然口语化，语音的澄清话术需要采取封闭式关键词引导。

⑤ 关键词的引导，根据人的记忆及听力的规则，每次小于等于3个，且近俩个每句话术文字在7±2之间。

设计用例：

User：“帮我定下明天闹钟？”（意图不明）

语音助手：“你要定几点闹钟？”（几点钟为关键词）

Uesr：“明天早上8:00”（意图明确）

6. 多伦对话

多轮对话指语音助手与用户进行一轮（一问一答）以上的对话。

说明：

① 应用于意图虽然清楚、可执行，但任务执行结果不清晰。如：结果的集合过大，用户没有找到具体的内容。

② 多轮的引导，应能帮助用户完成任务，同时防止用户自然语言的发散。

③ 多轮对话的轮次意味着用户与智能设备的多次交流。在搜索工具语言中，语音交互较快的达到目标是关键，轮次越多代表执行的效果不理想，通常以小于3轮较为合适。但是在闲聊类型功能中，轮次越多，代表用户聊天的意愿越强。

设计用例：

User：“能帮我找一下好看的电视剧吗？”（意图清晰，任务集合过大）

语音助手：“你要看中国的？还是国外的？”（关键词引导）

User：“中国的”（意图明确）。

7. 话术

话术指用户与智能设备对话的形式。

说明：

① 话术来源：a 语音产品中需要互动交流产生场景话术；b基于人与人对话的原则撰写而成的话术。

AI语音交互规范（第一讲）

设计用例：

AI语音交互规范（第一讲）

8. 话术（TTS）设计

语音话术指在语音交互过程中语音助手通过语言与用户进行互动，包括文字话术和语音话术。

说明：

① 显示的文字话术与语音助手的形象关联，并配合出现。

② 显示话术与当前语音逻辑相呼应。

③ 语音话术：用户发出请求后，需要给予语音应答。比如：“定今天下午3点闹钟”，反馈；“好的，已经定好下午3点闹钟”。

④ 声音及文字：引导过程中，根据业务的需要进行声音与文字的引导。

声音引导：引导澄清用户的意图。

文字引导：语音域中的引导话术。

声音+文字引导：比如问题及内容的搜索结果。

⑤ 运营类话术：针对高频词的结果及当前热门的内容，定制化的话术，目的是增加产品的情感，更加贴切用户的反馈。实现的方式：由运营后台配置。

9. 用户对话引导

语言具有自然性，为了避免用户语言的随意泛化，导致用户指令无法识别，需要在语音中进行话术规范性引导。

说明：

引导话术结构-“唤醒方式+需引导的技能话术”。

① 全局性引导。由话术平台统一部署，引导分为3类：

语音更能引导；
当下热门内容引导；
新上线或主推功能引导。

② 相关域引导。在语音交互过程中，提供当前领域的相关话术引导。分为两类：

当前领域中多维度的引导；
多轮进阶式引导。

③ 运营类的引导。专门为运营类产品定制的语音话术引导。

10. 情感表达机制

语音交互人性化，是语音交互重要特征之一。

说明：

基础状态：

唤醒状态；
待命；
加载；
免唤醒；
声源定位。

基础情绪：

欢呼；
陪伴；
安抚；
帮助；
其他（更多的类型根据业务需要进行添加）

基础情绪的表达（如图所示）：

AI语音交互规范（第一讲）

七、小结

语音交互规范主要内容分为：

语音交互原则
语音交互框架
语音逻辑规范
语音控制原则
多模态交互
弹框机制
操作反馈
界面架构
情感化设计

本篇仅写了：（1）语音交互原则（2）语音交互框架，后续分为3篇完成，谢谢大家阅读，后续内容敬请期待！

本文作者 @东哥的设计分享

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！

标签：交互体验产品经理初级产品经理语音交互规范

上一篇 > HMI交互设计详解（上）
下一篇 > 空间记忆：为什么它对UX设计很重要

Axure原型案例实战分享：如何改造后台产品架构及如何迭代更新升级现有的产品？

产品经理先考虑清楚这些问题，再开始一段属于自己的创业旅程

如何在压力山大的产品经理生活中调节情绪

如何给需求排优先级？

产品思维

产品经理：如何“化零散需求”为“高效解决方案”？

产品经理如何做需求分析？这 8 个步骤一学就会！

业务场景梳理，产品经理必备的技能点

从产品新人到项目owner

不懂技术的产品经理，如何让 AI 码农帮敲代码？

产品经理的面试技巧，简历要点，并从四个方面拆解面试重点

【跨界奇谈1】韩立版“精益创业”案例分析

产品艺术性的思考

不会要账的产品经理，不是好的谈判员

产品经理与项目经理到底有什么区别？该怎么选？

产品小白不迷路01：我适合做产品经理吗？

物联网对传统互联网产品经理的影响

优秀的产品经理应该具备什么样的思维方式？

产品经理的职业深度进阶：策略性思考与领导力提升

产品经理方法论连载03 | 产品通识——产品经理的岗位分类

面试产品经理时，如何回答有关创新和产品方法论的问题

语音交互规范（第一讲）

一、AI语音交互发展

二、什么是AI语音交互？

三、为什么要建立AI语音交互规范？

四、AI语音交互规范主要内容是什么？

五、语音交互的原则

1. 通用原则

2. 交互的可用性要素

3. 人性化的表达

六、语音交互框架

1. 语音交互流程

2. 语音交互框架

3. 远场与近场

4. 正常/异常状态

5. 对话澄清

6. 多伦对话

7. 话术

8. 话术（TTS）设计

9. 用户对话引导

10. 情感表达机制

七、小结

相关文章