论RAG技术对智能数字人对话的革新与优化方案

裴哲琦 2024-04-29 21:40:24

文档目录预览

为什么需要用LLM重塑数字人行业
什么是RAG技术
如何在实际业务中应用该技术（业务背景、业务目标、回收指标、产品框架、数据处理流程）
如何对数字人RAG模块进行评估和优化
直播场景下RAG回复的频率限制

一、为什么需要用LLM重塑数字人行业

在上一篇文章当中，我提到了数字人行业发展同质化竞争情况，市面上所有的数字人她的外在形象、口型合成、直播背景模版等等，都已经趋于同质化。

技术的不断进步可能在某些关键时刻彻底改变行业格局。例如，一些曾经在技术上占据优势地位的企业，可能因为新技术的出现而迅速失去竞争优势。如果这些企业不能及时适应，就会面临被竞争对手超越的风险。这也给了小型和初创企业赶超的机会。如何设计和运营，想清楚用它干什么，让软件工具代替人工发挥应有的价值，决定了他的商业化的程度。

自从大型语言模型（LLM）问世以来，它的影响被认为与几十年前互联网对各行业的影响相当。LLM的应用被视为对现代社会各个领域进行了全面的改造。其中也包含了数字人，一个带着人类面具外壳的AI智障，乘着大模型的风，使其变得更具互动能力。

二、什么是RAG技术

RAG模型的核心思想是结合信息检索和文本生成来解决复杂的自然语言处理任务。具体而言，RAG模型首先利用检索式技术从大规模语料库中检索相关文本片段或知识，并将这些文本片段作为上下文输入到生成式模型中。然后，生成式模型使用这些上下文信息来生成响应、答案或文本。

RAG模型的优点在于它能够利用大规模的外部语料库来增强生成式模型的能力，从而提高模型在开放域任务中的性能。

论RAG技术对智能数字人对话的革新与优化方案

三、如何在实际业务中使用该技术？

1. RAG应用的业务背景是什么？-对销售领域深度对话数字人的渴望

数字人直播互动能力不足的问题；参考文章：

https://www.woshipm.com/ai/6002396.html

对于高客单价商品，尤其美妆、家电等垂直领域，新用户如果不是因为提前对产品有了解，提前对品牌有了解，是不太可能通过数字人直播进行下单的。因为产生新的购买行为，需要在直播间进行多轮的互动来进行了解一个商品，但是目前很多数字人厂商提供不了深度对话的AI数字人直播软件。那这个时候，利用数字人在非高峰期直播，提高品牌复购，让已经了解品牌的用户用合适的价格参与活动，也可以帮助品牌达到目标。

2. RAG需要完成哪些业务目标

借助商家和品牌商品数据以及竞品数据接入智能问答库，方便直播间用户进行复杂问询时，数字人可以提供更加精准的、个性化的且真实的回复。同时在构建智能回答机器人的同时还需要注意些业务上的逻辑：

回答的准确性和语言风格：数字人在回复过程中要保证内容的准确性，以及符合口语化的表达。
回答的品牌风险规避：数字人不回答或不提及或模糊提及竞品品牌词和产品内容。
回答频率克制：多弹幕/重复弹幕加持下，数字人需要控制回复频率，保证直播间的弹幕回复频率和速度的合理性，切勿造成刷屏现象。
不明确回复内容：数字人对于不知道的问题需要收集起来，反馈业务进行问答库更新。
合规检测：对LLM输出的答案需要通过合规检测。

3. RAG应用的检测数据指标

1）用户体验&直播间效果指标

响应时间：数字人回答问题的平均响应时间。
弹幕有效回复率：收集弹幕内容，对弹幕进行有效提问分类，并计算数字人对有效弹幕的消息回复率。

2）准确度和性能相关指标

准确率：数字人回答正确的次数与总回答次数的比例。
召回率：在所有应该被数字人正确回答的问题中，实际上被正确回答的比例。（召回率特别重要，当关注的重点是确保所有正例都被识别出来时，例如在疾病筛查或欺诈检测中，遗漏一个正例的代价可能非常高）
答案相关性：这个指标强调生成的答案需要与提出的问题直接相关。
忠实度：这个指标强调模型生成的答案必须保持对给定上下文的忠实，确保答案与上下文信息一致，不偏离或矛盾。这方面的评估对于解决大型模型中的幻觉问题至关重要

4. 产品设计框架

论RAG技术对智能数字人对话的革新与优化方案

5. RAG检索库的构建流程

流程简述：由企业业务人员，在直播软件后台上传pdf/word文档，并进行文本的chunk处理，上传的数据会由「嵌入模型-Embedding Model」进行向量化的处理，这个过程就是将文本内容转化为计算机理解的语言。转换后，再存储在一个特定的数据库中，这个数据库通常被称之为「向量数据库-Vector Database」

论RAG技术对智能数字人对话的革新与优化方案

详细构建流程：

Step1-准备数据集

数据集的来源：商家、品牌和企业用户本身沉淀下来的商品信息；这些数据可以是从互联网、数据库、文档集合或其他来源获取的文本。

Step2-文本预处理

为了避免数字人出现“一本正经地胡说八道”数据收集过程中一定要减少无效信息、冗余信息和错误信息的筛选，做好数据清理，以减少回复内容的幻觉，其次可以对文本数据进行预处理，包括分词、去除停用词、标点符号和特殊字符的去除、转换为小写等。可以使用自然语言处理工具库，如NLTK（Natural Language Toolkit）或spaCy来执行这些预处理步骤。

Step3-Chunking文本的分块与分段