谈谈在B端落地第三方大模型的步骤

柠檬饼干净又卫生 2023-09-06 14:52:20

一、引言

奇绩创坛创始人兼CEO陆奇博士曾经提出过“三位一体”的结构模型：“信息 + 模型 + 行动”。其解释了人类、组织等有机体的运作方式，也可用于概括互联网产品的组成结构：

谈谈在B端落地第三方大模型的步骤

图片引用于陆奇《我的大模型世界观》

在B端系统中，我们可以采用“信息 + 模型 + 行动”的结构来规划和应用人工智能的能力。利用业务所产生的数据作为输入，经过模型的规则总结，然后系统根据模型的预测结果来采取相应的行动。例如，我们可以利用AI的语言处理能力实现翻译功能，或者通过AI对客服问答进行总结，实现智能机器人客服。最终的目标是通过AI技术实现B端业务的成本降低和效率提升。

在当前生成式人工智能蓬勃发展的背景下，许多中小型企业希望结合第三方提供的大型模型能力，将自己的产品“重新用AI打造”。大多B端产品经理也在领导的要求下，被要求利用现有的大型AI模型来满足相关需求。

然而，我们需要思考AI是否真正适合自身的业务，如何选择适合的大型模型，以及如何在确保业务效果的前提下规避当前AI所面临的不可控问题。本文将对在实施AI落地过程中的一些思考进行梳理。

二、落地难点

事实上，大多数中小企业并没有自行训练大模型的能力，因此只能依赖第三方提供的大模型来进行需求开发。而这种情况下存在一些影响企业应用AI的问题：

1）AI的黑盒特性导致的不可控问题

目前的AI技术仍处于第二代系统阶段，远未达到AGI水平。因此，AI的能力仍然存在一定的局限性，主要表现在以下几个方面：

答案的可信度不确定：由于AI是基于已有信息的提炼和总结，对于新出现的问题和场景，AI可能无法提供有用的答案。尤其是在垂直领域的AI应用，可能无法产生有用的信息。
答案的合规性不确定：AI是一种基于统计学的结果预测，本质上没有明确的是非判断能力。因此，在涉及道德、法律等层面的问题上，AI无法进行甄别或判断，容易给企业带来负面影响。

2）“大模型百家争”下的技术方案不确定性

目前，国内外的知名企业都在积极发展大模型，国内有文心一言、通义千问、盘古、星火认知大模型等数十家厂商。对于这些大模型的能力和边界，我们了解甚少，因此在决策企业AI技术落地时，面临着诸多问题，例如“应该选择哪些大模型”和“如何使用这些大模型”，这增加了企业决策AI技术落地的成本。

谈谈在B端落地第三方大模型的步骤

图片来源于网络

三、实施步骤

AI技术在B端的应用场景十分广泛，但本文将专注于研讨如何在发现一个可行的场景时，有效地实施落地的步骤，以解决企业在依赖第三方AI技术时面临的不可控性和不确定性问题。以下为个人总结的落地步骤：

1. 快速验证可行性

在明确B端系统要应用AI的具体任务后，需要进行快速的可行性验证。尽管尚未确定最终选用哪个大型模型，但可以先使用一种评价较高的大型模型进行验证，并请技术团队和业务团队进行评估。为了快速验证，您可以尝试搭建一个演示版本，以便迅速进行业务验证。为避免浪费开发成本，建议优先选择一些开源的技术实现方案，仅需支付部署费用即可。这样能够有效降低开发成本并提高开发效率。

其中测试的时候有两种验证方法可供尝试：

1）角色扮演法：测试者扮演B端系统的用户角色，模拟业务的交互流程并输入信息，以评估AI的返回结果是否符合业务要求。例如，可以模拟用户向智能机器人提问，观察AI返回的问题是否能够满足业务要求，从中判断AI是否能够在该场景中提供解决方案的方法。

2）数据模拟法：通过在线业务数据获取真实的样本数据，并进行人工筛选以确定具有代表性的数据案例。随后，批量输入这些数据到AI模型中以获取输出结果，并进行大规模的评估。

2. 建立指标体系进行模型选型

当确定AI技术可在B端上落地后，需要确定接入的模型能力。这里需要基于业务梳理模型评估体系，使用量化的指标便于多个大模型之间的对比，以便综合考量最终选取合适的大模型提供方。一般指标会包含以下内容：

1）召回率

召回率是模型训练中的概念，又称“查全率”，是一个常用的衡量数据挖掘模型在查询回归程度的指标。用简单的话介绍就是“原本需要系统判断出来的内容中，大模型真的抓出来了多少”，用来判断大模型能够准确判断的范围。

2）准确率

准确率同是模型训练中的概念，用于衡量模型预测正确的结果所占的比例。通俗地讲，就是模型判断正确了多少。

在大模型能力有限的情况下，召回率和准确率一定程度上是冲突的。为了判断得全，就会加大判断错误的概率。为了判断得正确，又会有案例没有没判断到。

召回率和准确性直接决定了大模型的服务能力。

3）安全性

由于是第三方服务，B端企业需要考虑到数据的安全问题，评估模型能否保护用户数据的隐私和安全，并符合相关的数据保护法规和标准。

4）可解释性

可解释性是指模型的结果能否被理解。可解释性高的模型，其黑盒程度相对更低，更具有可控性。

对B端业务来说，模型的结果需要能够被解释和理解，以便用户和业务决策者能够理解模型的工作原理和结果依据。

5）稳定性

结合自身业务端量级判断评估模型的性能，包括响应时间、吞吐量和并发处理能力。模型需要能够在合理的时间内处理大量的请求，并保持高效的性能和稳定的服务。

6）成本

使用大模型是有成本的，例如使用ChatGPT需要按照token进行收费。此外，不同版本的大模型收费标准也不同，例如ChatGPT4.0版本虽然效果更好，但成本却是3.5版本的40倍到60倍。因此，在选择大模型时，需要结合业务量级进行成本评估，以确保AI需求真正能够实现”降本”的目标。

7）发展潜力

评估大模型提供方的潜力，后续是否有可能提供更好的服务能力。

基于上方指标进行多个大模型之间的对比，按照指标权重综合考虑，最终选择最合适的大模型以接入。

3. 海王思维，两手准备

随着人工智能的快速发展，企业在选择和应用大型模型时面临着不确定性。原本使用的大型模型可能随时被新出现的更优秀模型所取代，以满足业务需求。这种替换可能会导致额外的成本，对企业的B端系统建设进度产生不利影响。因此，在实施企业的人工智能需求时，需要具备一种“海王”思维：

1）做好随时“分手”的准备

确保基于大模型的需求实现方案不要过于定制和耦合，明确好自身系统和第三代模型的边界。把第三方大模型当作一个可随时替换的“插件”，做好随时替换的准备，当目前使用的大模型技术由于成本或者能力问题需要替换的时候，可以随时抽身而退。

2）确定模型评估方案，定期勾搭市面上的其他模型

由于当前AI发展日新月异，为了不让企业落后，产品团队需要定期接入最新的模型进行测试和验证，利用前面搭建的“模型评估体系”判断最新的模型与原有模型的差异，以用于判断“是否替换”或是“保持使用”。

谈谈在B端落地第三方大模型的步骤

4. 确保兜底逻辑，规避AI的不可控风险

由于AI输出的答案存在不确定性问题，在涉及面向C端用户的业务场景中，直接应用AI输出结果可能导致无法控制的影响。因此，为规避相关风险，我们需要采取以下措施：

1）建立自主AI结果检测程序，拦截无效输出结果：我们可以通过建立AI结果检测程序来识别可能对业务产生影响的内容。通过使用词库和正则匹配等方法，我们可以甄别并拦截AI生成的错误结果。对于出现错误的结果，我们将重新执行AI生成逻辑，直至获得正确的输出内容。

2）引入人力兜底方案以应对影响用户的内容：对于不直接影响用户的内容，我们可以直接采用AI的判断结果。

然而，对于可能对用户产生影响的内容，最好由人力进行兜底控制。例如，在审核环节中，我们可以引入“机审”和“人审”的组合，使用“机审”对内容进行初步筛选，而“人审”则负责处理AI无法准确判断的内容。又例如，在智能对话客服环节，我们可以引入“人工入口”，以确保在机器无法解决问题的情况下，引导用户寻求人工帮助，避免对用户体验造成影响。