大语言模型，实现智能客服知识库自动扩写功能

通信产品的那些事 2023-08-09 05:01:15

大语言模型“忽如一夜春风来”，作为最佳应用实践战场之一的智能客服领域，各厂商经过短暂的观望之后纷纷出手。首先落地的场景就是知识库自动扩写，这也是AIGC能力在智能客服最直观最简单的落地应用场景之一。

一、AI训练师的“神器”？

智能客服领域的一个难点在于知识领域是狭窄的，AI机器人必须被限定于企业账户级的知识库中。

而智能客服中的知识库，就是一个限定领域内的企业私有知识库，如果不配置外接知识库的情况下，AI文本和语音机器人都会在此知识库范围内进行问答。

所以智能客服机器人的智能化程度，受制于这个知识库的完善。

运营较好的企业，会进行大量的知识库维护工作，帮助机器人校准回答水平。

对于重度的智能客服AI机器人使用者，这是一项高度依赖人力的工作，必须配备专职的AI训练师岗位进行话术流程搭建，知识库维护工作。

AI训练师的常见工作流程包括：分析客户话术流程需求，设计话术流程模板，搭建话术知识库，测试话术流程，配合上线、收集运营数据反馈调优等。

既有对产品大量的操作性工作，也包括大量的客户沟通。其中对知识库的编写，是最费时费力的工作之一。

有经验的AI训练师会借助积累的通用知识库，领域知识库和常用模板，来达到快速冷启动的目的。

而对话术中的详细知识点进行针对性地扩写，是绕不开的一个工作。

借助大模型能力，协助AI训练师进行知识库扩写，就是为了解决她们的效率问题。

二、AI谈谈实现方案

如何通过大语言模型，实现智能客服知识库的自动扩写，听听AI的建议。

知识点自动扩写通过大语言模型的实现方案要考虑：

选定知识库和知识点：从现有知识库中选定需要扩充的知识点，如概念、实体等。这决定了扩充内容的范围和方向。
收集相关语料：通过各种方式收集与选定知识点相关的语料，如网页数据、文献数据、问答数据等。语料规模和质量直接影响生成文本的效果。
选择语言模型：选择一个合适的预训练语言模型，如BERT、GPT-3、Transformer等。不同模型适用不同类型和规模的数据，模型性能也不同。
设计定制模板：根据扩充目标设计定制模板，如概念解释模板、问答模板、例句模板等。模板的设计指导和规范了语言模型的生成过程。
构建生成框架：构建一个生成框架，将语言模型、语料和定制模板有机结合，使其协同工作完成文本生成任务。框架的关键是输入与输出的有效衔接。
生成多样化文本：在框架中生成多个候选扩充文本，这些文本需尽量保证多样性以提高选择空间。
评估和筛选：采用自动评估与人工评估相结合的方式对生成文本进行评估和筛选，选择内容丰富、准确度高和最符合要求的文本。
添加到知识库：将选择出的扩充文本添加到对应的知识点下，以实现知识点的详细描述和内容扩充。
持续监测与优化：持续监测已添加扩充文本的有效性，并收集用户反馈意见。根据反馈进行生成框架的优化，不断提高扩充质量。
重复迭代：对更多知识点重复上述步骤，逐渐实现知识库的广度和深度扩充。

在实现中需要注重语料和模板的选用，框架的设计，生成文本的筛选，以及优化机制的构建等方面。良好的设计可以大大提高自动扩充的效率与效果。同时，人工参与也是关键，特别是在评估选文本和优化框架中。

总之，知识点自动扩充需要构建一个涵盖语言模型、语料、模板的动态框架，利用多轮迭代不断优化和改进，最终实现高质量的知识扩展。

知识点扩充的技能也可以用于实现相似问句的自动生成。实现方法可以包括：

构建知识图谱：收集与给定知识点相关的所有信息，构建知识图谱，包括相关概念、实体、事件等及其关系。知识图谱提供了生成相似问句所需的丰富语境信息。
设计问句模板：分析给定知识点相关的典型问句，设计多个问句模板（包含实体槽位）以指导生成过程。不同模板代表不同的问句角度和表达方式。
填充实体槽位：利用知识图谱为每个模板的实体槽位填入相关实体或概念，形成多个问句候选项。实体的替换会产生相似但表达不同的问句。
评分与筛选：根据问句的语义相似度、流畅度以及其它标准对候选问句进行评分，选择最优的若干个问句。然后可以人工选取最佳的几个问句。
迭代优化：分析选取的问句以及人工反馈，对知识图谱和问句模板进行优化修正，以产生更高质量的问句候选项，实现迭代提高。
持续生成：对更多知识点重复上述步骤，通过累积的知识图谱和模板库持续生成更丰富的相似问句，实现自动问句扩充。

总体来说，要实现相似问句的自动生成，需要构建问句生成框架，框架基于知识图谱和问句模板，可以填充实体生成候选问句，并通过评分、筛选和优化不断改进，最终产生高质量的相似问句，实现知识点的问句扩充。

核心实现逻辑完全类型，其中的填充实体槽位是实现相似问句自动生成的关键步骤之一。主要的实现方法有：

实体提取：从相关语料中提取与知识点对应的实体，如概念实体、名词实体等。这需要利用实体识别与链接技术实现。
实体候选：根据模板中的槽位类型，从提取的实体中选择与槽位匹配的实体候选项。每个槽位可能对应多个候选实体。
实体组合：根据不同的槽位，从其对应的实体候选项中选取若干个实体，进行所有槽位的实体组合，形成完整的问句内容。
相关度排序：对所有实体组合生成的问句，计算其与知识点的相关度或相似度，并进行排序。相关度越高的问句被赋予更高的生成概率。
beam search：在生成过程中，根据相关度对实体组合的问句进行beam search，只追踪相关度较高的Top-K个组合，扩展它们生成更多候选问句。这可以提高生成质量。
随机选择：在一定概率下，从实体候选项中随机选择填入实体，而不是选择相关度最高的选项。这可以增加生成结果的diversity。
人工干预：如果自动生成的实体组合问句不满意，可以人工指定某些实体入选或移出，人工干预结果与自动生成结果融合，改进生成质量。

所以，填充实体槽位的关键在于从相关语料中抽取实体候选项，然后根据相关度、beam search以及随机机制等策略选择若干实体入槽，形成完整的问句。人工也可以参与其中，与自动生成结果融合，不断优化和改进。

通过上述方法，可以为每个模板的实体槽位填充多个实体选项，产生多个相似但略有差异的问句。这为后续评分筛选提供了丰富的候选空间，有助于选取最优的问句，达到问句扩充的目的。填充实体槽位是实现高质量相似问句生成的关键环节。

知识点：

diversity增强和beam search策略都是用于提高语言模型生成文本的多样性，从而产生更丰富的多样化文本。

diversity增强指在文本生成过程中，人为地增加一定的随机性或噪声，以鼓励语言模型产生更加多样的表达，而不是单一的序列。常用的方法是：

随机采样：从语言模型的输出分布中随机采样，而不是直接选择概率最高的输出。这会使得最终的输出序列更加随机。
噪声注入：在文本生成的中间节点向输出序列注入一定的噪声或随机token，这会促使后续生成更加多样。
重启机制：当生成过程进入”过于确定”的状态时，允许重新开始生成（restart），这可以使整体的生成结果更加多样。

Beam search策略是一种启发式搜索算法，它在解空间中维护多个候选解，而不是直接选择单一的最优解。在文本生成中，会追踪语言模型的多个可选输出序列，并在后续生成中继续扩展这些序列，最终选择其中概率最高的序列作为输出结果。

与直接生成单一输出序列相比，beam search策略会产生更加多样的候选序列。通过控制beam的宽度，可以决定追踪的序列数目，实现对输出多样性的控制。

所以，总体来说，diversity增强会通过引入噪声或随机性主动干预生成过程，提高输出的多样性;而beam search策略则是通过追踪并扩展多个可选序列，为最终输出结果提供更丰富的选择空间。

两者的目的都是鼓励语言模型产生更加多样的表达，以此来获得更丰富的candidate文本。这为知识扩充的选取阶段提供更广泛的内容选择空间，有助于最终选择更加符合要求和高质量的文本，实现扩充效果的提高。对生成文本的diversity控制和提高是知识扩充研究的一条重要途径。

当然借助大模型实现，未必需要关注模型和算法具体实现。

三、对正则表达式的扩写

针对机器人知识库常用的正则表达式的自动扩写，也可以通过大语言模型进行自动扩写。需要考虑的内容包括：

深入解析问句正则表达式：利用正则表达式解析技术深入理解其表达的语义与信息，提取关键词、概念、变化范围等，准确把握其表达意图。
构建正则模板：根据解析结果设计多个正则表达式模板，代表不同的问句表达形式和角度。模板中包含可替换的词汇或符号作为槽位。
填充词汇/变换：根据实际语境，为正则模板的槽位填入相关词汇或变换模板中的符号，形成新的正则表达式。词汇/符号的替换将产生语义相似但结构略变的新的正则表达式。
组合生成：将不同的正则模板按照一定策略组合，并为不同模板的槽位填入词汇/变换模板，形成更复杂的正则表达式，代表更广泛的问句形式。
评分与选择：对所有生成的正则表达式问句，根据语义相关度、复杂度等标准进行评分，选择最优的若干个表达式。然后人工选取其中最佳的几个表达式。
优化与提高：分析选取的结果和人工反馈，优化正则模板、词汇列表和变换策略，产生更高质量的候选正则表达式，不断提高生成效果。

所以，要实现对正则表达式问句的正则表达式相似问句生成，关键是要深入理解正则表达式的语义，设计正则模板并通过填充词汇和变换模板产生候选表达式。然后通过评分选择、优化提高，最终生成高质量的相似正则表达式，达到问句的扩充要求。

四、实例：知识库扩写生成测试

1）相似问的AI自动生成

我从实际的AI机器人知识库中，随机抽取了几个场景的问题，拿来让AI测试下自动扩写生成。（Q为原句，A为AI扩写的内容，每次生成5句备选）

Q：黑金卡免费停车卡为什么不能马上使用？

A：

为什么开通了黑金卡免费停车服务后不能直接使用？
申请黑金卡免费停车卡后为何要过一段时间才能正常使用？
开通黑金卡专属免费停车服务为何需要等待一定时间才能使用？
享有黑金卡免费停车权益为什么首次使用要待一段时间？
黑金卡停车卡申请下来为什么不能立即启用使用？

Q：高端领军人才怎么申请人才公寓？

A：

高端领军人才如何申请人才公寓的资格？
高端领军人才申请入住人才公寓需要满足什么条件？
高端领军人才想申请人才公寓，需要准备什么申请材料？
高端领军人才申请人才公寓的流程和步骤是什么？
高端领军人才要申请人才公寓，需要符合什么要求和标准？

Q：你是真人嘛？你是不是机器人？

A：

你是人工智能聊天机器人吗？
你是真实的人类用户还是AI系统产生的效果？
我们现在的交谈对话是和真人进行的还是和机器人系统？
我现在与之交流的对象是人类用户还是人工智能聊天机器人？
我们此刻的对话是在跟真人对话还是在跟聊天机器人对话？

2）正则表达式相似问

A：

他现正忙碌|您找他有什么要紧事|我是人工智能系统|有任何事先告知我|还有其他事项需要办理吗|主要面向什么人群使用|AI助手|私人秘书| virtual assistant|主人目前无法接听|小志智能助手|请通知用户|我会尽快通知用户|
他这会儿不太方便|您有什么急需与他联系的事|我是智能机器人|有什么事儿提前告诉我|还有其他事情需要处理吗| 主要为哪类用户群服务|人工智能助理|私人助理|机器人助手|用户现在无法接通|小雨AI助理|请通知客户|我会尽快通知客户|
他现在比较忙|您找他有啥急事|我是一个AI系统|有什么事情先告诉我|还有没办完的其他事吗| 主要面向什么样的用户|AI帮手|私家秘书|机器助理|主人此刻不在电话旁|小天智能秘书| 请告知用户|我会很快通知用户|
他这会儿挺忙的|您联系他有什么重要事|我是人工智能聊天机器人|任何事情提前跟我说|还有没有其他未完成的事|主要服务哪些人群|人工智能伴侣|私人助手| 智能机器人|用户现在通讯不便|小菲AI伴侣|请转告客户|我将尽快转告客户|
他目前比较忙碌 |您找他有什么要事 | 我是智能聊天机器人|有什么事情先告诉我|其他事项还未办妥吗|主要适用什么样的用户群|AI管家|私人秘书助理|智能系统|用户此时无法接听|小芬虚拟助手|请告知主人| 我将尽快告知主人|

Q：别打|别再|别给我打|不要打|不要再打|联系过|不要联系|不要再联系|天天打|一直打|老是打|

A：

别电话|别再电话|别给我电话 |莫打电话|莫再打电话|联络过|别联络|别再联络|天天电话|老电话|老打电话
不要打钟|不要再打钟|不要给我打钟|不要打钟|不要再打钟|联系过|不要联系|不要再联系|天天打钟|老打钟|老是打钟
不要响铃|别再响铃|别给我响铃|不要响铃|不要再响铃 |联络过|别联络|别再联络|天天响铃|常响铃|老响铃
别打扰|别再打扰|别给我打扰|不要打扰|不要再打扰| 联系过|别联系|别再联系 |天天打扰 |老打扰|经常打扰
别骚扰|别再骚扰|别给我骚扰|不要骚扰|不要再骚扰|联络过|别联络|别再联络|天天骚扰|老骚扰|常骚扰

3）带有组合关系的正则表达式（且&）

Q：（再联系|没）&（时间|有空）

A：

（再联络|空余）&（时间|有闲）
（再联系|没）&（时间余裕|有空闲）
（再联系|能抽出）&（时间|空出来）
（再联系|有）&（时间可以|空可以）
（联系|如果）&（有时间的话|时间方便）

4）带有排除关系的正则表达式（非&!）

Q：（没时间|开车|开会）&!（开车怎么过去）

A：

（没有时间|开车中|开会中）&!（开车该怎样过去）
（时间不够|正在开车|正在开会）&!（开车如何过去）
（没空|驾车运转|会议进行）&!（开车怎么去）
（时间紧|开车去|开会去）&!（开车过不去）
（时间不足|开车走|开会走）&!（开车过不来）

5）带有并列组合的正则表达式

Q：（没时间|开车|开会）|（（再联系|没）&（时间|有空））

A：

（没有时间|开车去|开会去）|（（再联络|空余）&（时间|有闲））
（时间不足|开车中 |开会中）|（（再联系|可以）&（时间|有空））
（没空|驾车运转|会议进行）|（（联系|如果）&（有时间的话|时间方便））
（时间紧|开车走|开会走）|（（联系不上|空出）&（时间|可以空出））
（时间不够|正在开车|正在开会）|（（再联系上|抽得出）&（时间|空出来了））

6）实例：一问多答的多种知识点回答自动生成

同样，还是随机抽取了部分知识库标准回答，让AI自动生成。

Q：AI智能客服提供了一种高形式的，高性能的，更高效率的产品工具，帮助用户解决与企业连接的问题。

A：

AI智能客服系统使用先进的人工智能技术提供高效的客户服务产品工具，以帮助用户解决与企业的互动中遇到的各种问题。
借助人工智能，AI智能客服产品工具能够高规格、高性能和高效地帮助客户处理与公司业务相关的各类疑问与难题。
AI智能客服依靠人工智能技术开发的高水平、高质量和高产出客户服务系统工具，使客户能够快速解决与企业沟通过程中出现的种种难题。
AI智能客服产品工具利用人工智能技术实现高标准、高效率和高表现的客户端服务系统，帮助客户迅速解决与企业交流互动时遇到的各类问题。
借助先进的人工智能技术，AI智能客服工具提供高要求、高性能和高产出的客户服务产品系统，使客户能够高效解决与公司业务往来中出现的各种疑问与困难。

Q：如果逾期的话，会影响您的征信记录，也会影响您再次申请授信或借款的，所以还是建议您按时还款。

A：

如果逾期偿还的话，会给您的征信档案留下不良记录，也会对您今后申请信贷或贷款产生不利影响，因此我们仍建议您按时足额偿还。
如果过期未还，势必会损害您的信用记录，也会妨碍您将来再申请获得授信与贷款，所以我们强烈建议您如期还清欠款。
如果逾期未还款，势必会破坏您个人的信用档案，也将对您日后申请授信或贷款造成障碍，所以我们强烈推荐您按时足额还款。
如果过期未能偿还，必定会损伤您的个人信用记录，并会影响您未来申请获得新授信和贷款的资格，因此我们极力建议您准时清偿全部欠款。
如果到期未能还款，必定会严重毁损您的个人信用档案，并会严重影响您未来获授信贷与借贷的机会，所以我们极力推荐您准时还清全部欠款数。

Q：开通免费停车卡，需要我司财务部同事在系统中录入您的信息并作相应设置，才能保证在您使用过程中不会出现问题。需要一段时间，请您耐心等待，期间如有其他事宜，您也可以联系您的专属客户经理。给您带来的不便，请您谅解。

A：

开通免费停车卡需要我司财务部门的同事在系统内登记录入您的个人信息并进行相应设置，以确保您使用该服务过程中不存在任何问题。这需要一定时间，期间恳请您耐心等待，如果有任何其它事项，您也可以联系您的专属客户经理。给您造成的不便，我们深表歉意。
免费停车卡的开通需要由我司财务部门的工作人员在相关系统中注册输入您的个人资料并进行必要设置，这才可以保证您使用此项服务时不存在故障与困扰。这个过程需要一定时间，在此期间，我们恳请您体谅与耐心等待。如有任何其它问题，您也可联络您的专属客户经理。给您带来的不便，我们深表歉意。
开通免费停车卡，需要我司财务部门的工作人员在系统内登记和注册您的个人信息，并进行必要的设置与调整，这个过程需要时间，以保证该服务在您使用时不会出现任何问题。在此期间，我们恳求您理解与耐心等待。若有其它事宜，您也可以联系您的专属客户经理。给您带来的麻烦，我们致上诚挚歉意。
免费停车卡的开通需要我司财务部门的工作人员在相应系统内保存您的个人资料并进行设置，这需要一定时间以确保您使用此服务过程不会有任何故障。这个阶段我们恳请您体谅与耐心等待。如有任何其它事情，您也可以联络您的专属客户经理。给您造成的不适，我们深表歉意。
开通免费停车卡需要由我司财务部门的工作人员在系统中注册您的个人信息与进行设置，这需要时间以保证您使用此服务时不存在问题。我们恳求您在此期间体谅与耐心等候。如有任何其它事宜，您也可以联系您的专属客户经理。给您带来的不便，我们深表歉意。