五分钟了解搜索原理

2017-05-23 10:12:00

本篇文章是对于搜索系统工作原理一个整体的介绍，对于原理的理解，是设计系统举重若轻的基础。

1. 信息和信息量

在介绍搜索之前，先介绍两个概念：信息和信息量。

（采用的均是自以为比较通俗易懂的解释，如果感兴趣可以读相关书籍）

1.1 信息是减少不确定性的东西，信息也是增加确定性的东西。

前半句是香农信息定义，后半句是逆香农信息定义。举个栗子，回想下，和一个异性交往的过程。在你遇到TA之前，你不知道这个世界上有这个人的存在，后来你看到了TA的样子，后来你了解了TA的性格、口头禅，往事。然后一步一步，你对TA从丝毫不了解，到逐渐熟识。这期间就是一个你不断获取TA信息的过程，正是这些信息，让你从完全不确定TA是怎样的人，到完全确定TA很适合你。

1.2 信息量是一个信息能减少不确定性的度量，信息量也是一个信息能增加确定性的度量。

关于信息量，有很多数学的描述，但是通俗来讲，可以这么简单理解。举个栗子，证人描述嫌疑犯。A证人的信息是“他是个男人”。B证人的信息是“TA是个高中男生”，C证人的信息是“TA是个长发170左右的高中生。”D证人的信息是“我认识他，他是学校的扛把子陈浩南”。我们直觉能感受到信息量的大小关系为：AP（B）>P（C）>P（D），所以信息量的大小关系为：A和标签中只需要几行代码就能完成。

中是对于业务数据赋予权重。
中是对于文本数据赋予权重。

在研究过Solr系统这个机制之后，对Solr核心公式进行变形，就得到了一个公式：

$N_x$ 代表针对文本 $x$ ，我们给出的文本分数权重。比如这个系统中有三种文本，标题，导语，正文。根据重要性，标题权重为10，导语权重为5，正文权重为1。
$M_x$ 代表针对文本 $x$ ，Lucene算法给出的文本相关性分数，这个会综合考虑文本的字数，这个搜索词在所有文本中出现的概率等等因素（想进一步了原理的同学，可以看下 TF-IDF 与余弦相似性的介绍）。
$K_y$ 代表针对数据 $y$ ，我们给出的数据权重。比如这个系统中有三种数据，评论量，分享数，阅读量。根据重要性，标题评论数权重为100，分享数权重为200，阅读量权重为1。（一般而言会引入 $log$ 时间衰减性，这里暂不讨论）
$L_y$ 代表针对数据 $y$ ，具体的值。比如这个系统得三种数据，评论量，分享数，阅读量。
代表归一化系数，意味着权重可以给的非常大，最后总的分值也会在一个合理的范围内。
$S$ 是本次根据算法索引判断出的。代表本次打分，用户输入query提供信息的信息量大小。如果输入query提供了越多的信息，则S越大。
$S$ 增加，不变，之前的系数不变，之前的系数增加。而代表文本数据的对整体分数的贡献，则 $S$ 越大，就说明文本数据相比于业务数据就占有更大的权重。比如：输入“北京国庆交通拥堵”，和输入“交通拥堵”相比，“北京国庆交通拥堵”提供给了系统更多的信息，S值更大，文本的打分在总分数汇总占比越大。