电商搜索是如何保证搜索结果不偏离搜索意图的？

King James 2023-12-07 20:48:46

一、引入

用户在电商APP上进行搜索时，搜索引擎是如何把控返回的搜索结果是符合用户搜索意图的了？

电商搜索结果的相关性把控一般是通过两种方法：一种是通过类目相关性来把控，一种是通过相关性控制模型来把控。但相关性把控的尺度是没有标准答案的，在满足平台整体业务特性和用户体验的前提下，可以基于用户个性化的偏好进行进一步的相关性阈值控制。用户个性化偏好的了解既可以通过系统的EE（探索与利用）机制，又可以通过调研问卷的形式来让用户主动反馈。

下面详细介绍一下电商搜索中的类目预测和相关性控制模块：

二、类目预测

1. 引入

不管是电商领域的搜索还是内容社区领域的搜索，全都需要做类目预测，电商和内容社区都有自己专门的类目分类体系。类目预测有助于更好地计算检索词与物料之间的相关性，并应用到后续搜索类目导航功能中。

比如用户在生鲜电商平台叮咚买菜搜索“早点” 和“早餐”时，结果如下图所示，搜索引擎将“早点”“早餐”和牛奶、包子、烧卖、汤圆等类目关联起来，其实就是类目预测模块将原始检索词与这些类目关联起来。类目预测的另一个作用是在后续相关性排序环节中，将关联度更高的类目物料排在前列。

如下图所示，能与“光明”匹配的类目有很多，比如牛奶、啤酒、大米和面包等，我们需要通过类目预测推测“光明”和哪一个类目的关联度最高，以便在排序的时候进行参考。模型预测出“光明”和牛奶类目的关联度最高，所以在后续排序中就需要将牛奶排在前列。

2. 类目预测方法

常见的类目预测有三种方法。

1）基于人工规则

通过日志信息将热门的检索词提取出来，然后通过人工将这些检索词和相关类目匹配起来，保证用户下一次搜索时与检索词匹配的类目是正确的。

优点：可以实现快速上线。
缺点：可拓展性较差，人工运营成本很高。在搜索引擎搭建的初期可以使用此种方法。

2）基于用户行为的数据统计

第二种方法是通过用户的行为数据来分析得出每一个检索词对应的类目。

首先统计每一个检索词被搜索后，用户点击并浏览的物料对应的类目分布。用户会主动寻找搜索结果里面的正确答案，用户点击浏览的物料对应的类目就是该检索词应该匹配的类目。我们需要设计一个指标阈值，指标是单位时间内检索词对应单个类目的点击量，点击量大于阈值才代表该数据是可信的。

如下表所示，假设将点击次数阈值设置为50次，则罐头类目和检索词“早点”之间的相关度为0，其他类目与检索词的相关度可以用类目点击次数除以总点击次数来计算。

优点：利用了用户的历史行为数据，可以从数据中进行学习，具有一定的拓展性。
缺点：对于长尾检索词的覆盖度较低。

3）基于类目预测模型

上面介绍的两种方法对于新检索词的类目预测覆盖度都很低，拓展性也一般。实际工作中，我们需要构建专门的类目预测模型。下面本书以电商领域的类目预测为例进行说明。

① 训练样本构建

构建类目预测模型的第一步是构建训练样本，在电商领域，我们可以将商品标题或用户历史检索词与对应的类目构成一对，一对代表一条训练样本。如下表所示，构建相应的训练样本，并进行人工标注和二次审核。类目预测模型是一个多分类模型，一个检索词可能对应多个类目。

② 预测结果的选择

模型的输入为检索词，输出为可能相关的类目及对应的概率。因为类目预测模型是一个多分类模型，所以单个检索词可能会输出多个相关类目。此时我们需要针对类目预测的相关性设置一个阈值，比如检索词与类目的预测相关性超过 0.5 才说明两者之间的相关性可信。这个阈值需要根据实际训练出的模型在测试集上的验证效果进行确定。

③ 实际应用

实际应用时，我们一般会将类目预测模型分为线上和线下两部分。因为线上模型对实时性要求非常高，所以我们将一部分类目预测工作放在线下进行。因为每天搜索引擎里面80% 以上的搜索都是重复性搜索，针对这部分检索词可以提前进行类目预测，并通过人工方式对预估错误的检索词进行纠正，最终将类目预测结果提前存储到 Redis 内存数据库中，线上使用时直接查询即可。针对另外 20% 的长尾检索词，可进行线上实时预测。通过此种方式可以大大减轻线上的系统压力。