产品实践分享： Re-Act+SOP，让Agent稳定执行 SOP流程（多轮对话形式），低成本解决复杂SOP搭建问题

易俊源 2024-08-06 10:10:21

实践产品TFlow AI 简介：是面向B端业务场景Agent平台，能按流程处理任务（SOP），围绕目标来进行离散推理。能快速搭建Ai客服、AI导购等应用。

产品允许LLM与环境进行交互，根据环境数据的反馈不断的调整行动计划/策略。且整个sop的过程是由文本来控制，产品基本参数如下：

使用文心一言 3.5的模型，未微调
做了逻辑处理的Agent框架
单条回复的消耗不到2K token，价格不贵
欢迎体验。（注：流程只需要用文本流程，不需要work flow）

一、为什么要做

B端业务场景的需求：确定性

企业服务（对内、对外）通常有相对明确的SOP流程或者思考步骤，在业务处理或者对外交互时期望按照流程来执行任务。
对外、对内的服务，期望带来确定性的体验。

例如当用户退换货时，思考流程如下：

A 确定退货原因
b 确认订单是否真实有效
c 确定是否符合退换货政策要求
d 协助解答退货操作

在整个多轮对话沟通过程中的要求：

按照流程执行，需要流程可控，带来确定性的结果。
始终聚焦“退换货”事情上，不要去解答无关的事情

二、如何通过大模型实现昵？借用Re-Act 为代表推理+行动机制

ReAct 代表一种将推理和行动与语言模型只相结合的技术，用于解决各种语言推理和决策任务。它促使语言模型生成语言推理轨迹和行动，并支持与外部环境的交互。

Re-act的官方案例示例：

流程说明如下：

目的：找出Apple Remote最初设计用来交互的程序，即Front Row媒体中心程序
思考 1：我需要搜索“Apple Remote”并找到它最初设计用来交互的程序。
行动 1：搜索[Apple Remote]
观察 1： “Apple Remote”是苹果公司于2005年10月推出的一款遥控器……用于控制Front Row媒体中心程序。
思考 2： Apple Remote最初设计用于控制Front Row媒体中心程序。我需要搜索Front Row并找到还有哪些设备可以控制它。
行动 2：搜索[Front Row]
观察 2：没有找到[Front Row]。相似结果包括：“FrontSeat to Earth”、“Front Row Motorsports”、“Front Row(software)”等。
思考 3：没有找到Front Row。我需要搜索“Row (software)”
行动 3：搜索 Front Row (software)
观察 3： Front Row是一款已停产的媒体中心软件……
思考 4： Front Row（软件）可以通过Apple Remote或键盘功能键来控制。
行动 4：输出键盘功能键。

案例中re-act基于目的“找出Apple Remote最初设计的媒体中心程序”，模型自行计划、推理、执行了四个步骤。

搜索[Apple Remote]，知道程序名称是[Front Row]
搜索[Front Row]，但是未找到对应的软件。但是需要搜索 Front Row (software)
搜索 Front Row (software)，找到了控制方式
告知结果：输出控制方式键

在这个过程中，我们有几个发现

推理过程围绕始终围绕着目标“找出Apple Remote最初设计的媒体中心程序”进行
推理过程需要频繁的与外界交互（类似于多轮对话一样，搜索收集信息，观察解决问题）
推理过程类似于执行一个 SOP流程

ReAct 模式的核心是将观察结果提供给 LLM，使其能够更新其上下文窗口。该模型重新评估信息并根据这些见解采取行动以提高其推理能力。同时将单个推理步骤嵌入在对话的提示。

OK，那是否可以将Re-Act 与企业的SOP流程结合，然后让模型去执行标准的SOP流程

三、方案：Re-Act + SOP流程，让模型来控制sop流程

如何实现？对re-act执行过程进行变更

1、将推理目标（用户提供）变为企业预设目标，比如”目标解决退换货问题、留咨询问题、商品推荐”。非用户提供的提问
2、将模型执行推理的流程，变更为预设的SOP流程；

1. 方案的关键步骤如下

定义任务目标:：企业明确要解决的任务是什么
预设推理轨迹（one shot）:设计一个推理sop轨迹，描述如何一步一步地进行推理和决策、执行sop
借助 ReAct 的思考、行动和观察的离散推理能力，与外界进行互动执行sop的流程

2. 使用的优势

ReAct 可以帮助语言模型进行更复杂的推理和决策
流程sop（one shot）为模型的行为提供一定解释性，和可控性
可以支持语言模型与外部环境的交互（即用户多轮对话，实现一个目标）

四、落地效果检验分析

我们以简单的TFlow留咨询场景例（注流程只需要用文本描述，不需要work flow），问答效果如下：

1. Re-Act + SOP流程的推理过程复盘

Agent任务执行前提：

1）Agent的目标：解答用户疑问，引导用户留咨

2）推理过程示例（One Shot）：

理解用户的疑问
查询知识库中产品手册、了解对应的解决方法
解答用户的疑问，并用户提供姓名、联系方式、公司名称
将信息插入到 CRM系统中

第一轮的推理：

1）用户输入：能介绍一下产品吗？

2）模型处理：

观察：能介绍一下产品吗？
思考：用户询问了关于产品的介绍，我需要调用知识库接口来查询并解答。
行动：调用知识库

第二轮的推理

1）知识库返回：

「同时相较于第二代客服机器人，TFlow不只体现在具备情感，使用成本大幅度降低。与市面上常见的14999元/个、24999元/个、外加会话包计费方式的客服机器人相比，TFlow直接免费提供机器人服务，只按照实际消耗量收取token费用，费用多少由需求量说了算。小企业使用一个月的费用可能不超过50元，就可以享受24小时无间断的客户服务。让大模型真正的实现降本增效的目标」

2）模型处理：

观察：用户问题+知识库的答案
思考：根据知识库提供的信息，我已经了解了TFlow产品的介绍。现在我将简洁地回复用户，并引导用户提供姓名、电话号码和公司名称
行动：回复用户“TFlow是一款智能客服机器人，具备情感且使用成本大幅降低。它提供24小时无间断的客户服务，并可根据实际消耗量收取token费用。同时，TFlow支持多模态消息处理，并对接主流SaaS平台。请问您方便留下您的姓名、电话号码和公司名称吗？“

第三轮的推理

1）用户输入：曹操

2）模型处理：