解构电商、O2O：探秘搜索系统的“简历”

2017-06-30 11:16:00

之前的文章探讨过用户端背后系统的逻辑和结构情况，后续我会考虑逐步解构每个相关系统的情况。今天跟大家聊一聊搜索系统，搜索系统在所有电商系统里面复杂度和难度是可以排的上前列的。关于算法方面介绍的文章很多，这里不做赘述，只解构下搜索系统的基本逻辑和实现。对于产品来说未免沟通时“露怯”，了解搜索系统的基本知识和结构是有必要的。

搜索系统的“基本介绍”

搜索系统，顾名思义提供大数据查找筛选的系统功能。在电商和O2O领域作为一个主要的流量入口起到了至关重要的作用。

“基本介绍”：指标

对于搜索来说，主要的指标为准确率和召回率。我们以下图为例解释下什么叫做准确率和召回率。

图中整体的部分为所有商品数据的全集，其中包括不相关和相关的内容。

准确率：搜索结果中相关内容的比例，即图中A的部分
召回率：搜索结果占整体内容的比例，即A+B

由此我们可以看出，最完美的结果是A足够大且B足够小，但实际实现中会发现两个指标是相反的（召回率越高准确率会越低）。需要通过规则来平衡这块部分。

“基本介绍”：基础结构

搜索系统主要的组成部分有几块：

切词逻辑
词库
基础信息
加权规则
排序展示逻辑

整体流程如下

名词解释：

query：是查询的意思，这里指用户在搜索框输入的内容。
切词：又叫分词，是根据词库/词典将一段文本进行切分以便机器识别的过程。
词库：指用于切词的词库。
加权：将检索结果集按照一定的维度、规则进行打分就叫做加权。
索引：商品信息存储时需要建立索引，索引作为每个商品的标识方便在大数据量的情况下快速查找筛选。

“基本介绍”：应用场景

搜索的应用一般有两种：全文检索和suggest。其中suggest的规则比全文检索要简单一些。服务上由于suggest一般支持模糊查询的情况，所以要考虑服务上是否要独立还是公用一套。

搜索系统的“工作履历”:流程解构

切词/词库

切词，又叫分词。用于将用户输入的无结构化字符变成机器可识别的词组。市面上有很多成熟的切词组件。切词逻辑有很多种，根据字符、概率等，电商和O2O一般使用字符串切词的方式处理。关于切词的方法最基础的有最大正相匹配、最大逆向匹配、双向匹配等，具体的内容可以百度查询。切词工具根据词库中的词典进行切分，一般开源的切词工具都有默认的词库和自定义词库两种情况。用户可通过添加自定义词库来完善补充。

这里面需要强调的是切词时候的过滤，尤其生鲜类非标品情况下特别需要注意。

单字词、助词之类的是否要过滤掉。如米、面、油等
别名情况的处理，尤其是生鲜类。比如在北京叫油菜，在上海叫上海青，在重庆叫漂儿白

检索结果集

根据切出的词语进行匹配，匹配到的商品信息集合为检索结果集。结果集需要做检索、过滤、标记三个步骤。

检索

检索项包括但不限于：

商品名称
商品标题、副标题
商品描述
商品参数、规格
商品品牌（生鲜副食品类尤为重要，比如五得利面粉、鹏程五花肉）
商品品类（一级类、二级类）
别名关联商品
促销类型

成熟的电商系统不仅仅实现用户的基本商品检索，还会根据query进行意图分析来进行query转换。以生鲜电商举例，当用户搜索“猪肉”时，用户希望获得的不是含有猪肉词语的商品，而是猪肉的各个部位、猪肉级别等。这时应该转化为后臀尖、前臀尖、里脊，一级白条等词语进行检索，而不是匹配猪肉。意图分析主要有两个方面

行为模式分析
用户画像分类

过滤

获取的结果集需要经过去重、过滤的处理。此部分行为可以在加权打分后进行处理，也可以安排在初选结果后处理。

同一个商品被多个词语命中需要去重
现实中的电商搜索可能会根据不同的场景构建所谓的“小搜索”，如按照类目、按照品类、按照定制化场景等。所以针对不同的搜索场景可能会有单独的过滤去重条件，也可以在构建数据的时候使用不同的库进行处理。
O2O场景需要按照一定区域概念（城市、商圈等）进行过滤
售罄商品需要过滤
下线商品需要过滤

标记

在检索完成后需要对数据进行标记，以便后续做加权时使用。此步也可以在做加权处理的时候同步进行。

加权

加权的目的是为了根据模型确定结果集各个商品的排序优先级。加权的维度有很多，根据不同的场景考虑也会有所区别。

加权因子主要分为几个维度：

相关度
商业化因素
个性化因素
人为因素
数据模型统计

排序处理

根据加权的情况和一些特殊的处理，需要对最终输出的结果做排序调整。

这里提供两种方法供大家参考

可以按照加权打分的分值之和做排序。这样做比较直接，但在后续调整的过程中验证规则时容易混淆不清晰。
将不同的权重维度单独计算，生成一个长位数的标识符，每个权重在标识符上有自己的位置。按照优先级的顺序从左到右依次排列。考虑到机器计算的易用性上，可以在加权时使用十进制，然后统计时转换成二进制即可。类似下图这样，位数和排序可以根据具体业务场景制定。