互联网时代最主要的三种获取信息方式

2016-10-09 22:45:00

搜索、推荐和广告是互联网时代最主要的三种获取信息方式。但搜索、推荐和广告架构能统一吗？就此，本文作者将具体来分析。

搜索、推荐和广告是互联网时代最主要的三种获取信息方式。如果你了解三个系统的具体实现，甚至自己还分别亲手做过，那么你应该有一种模模糊糊的印象：似乎有些底层的技术和数据是可以共享的啊，但是为什么我们公司是分属三个不同的团队在搞呢？有时候似乎还要打个架什么的。

如果你有这个模模糊糊的印象，那么我告诉你：你不是一个人！Hector Molina在Recsys’14上就提出了将搜索、推荐、广告三合一的观点[1]。同时，在国内的微博上，也因此掀起了一些讨论[2]。微博上的讨论先按下不表，我们先来看看为什么三合一是一种可能的趋势？如果要合，又有哪些困难呢？

不同与相似

搜索，推荐和广告本质上都在解决信息过载的问题，各自解决的手段、目标不相同，各自诞生在产品生命周期不同阶段，以至于系统实现不尽相同。

从几个维度对比一下，看看他们不同和相同在哪？

搜索要解决的是精确快速找到想要的结果。最重要的目标是降低延迟和提高相关性。搜索更关注内容消费者，用双手让他们爽。搜索引擎不会像社交网站或资讯网站那样变成time killer，人们依赖搜索而不沉迷搜索就与搜索引擎的目标有关。在搜索解决用户的信息获取需求时，很少给予用户一些惊喜，这也不是搜索的目的，也不会随随便便地利用集体智慧去扩充一些不那么直接相关的结果。

推荐系统则不同，首先很少有靠推荐系统撑起一款产品，大都是起一个“锦上添花”的作用，好的推荐系统都会变成一个time killer，让用户走进去就不想出来那是坠吼的。推荐系统通常不必须要明确表达需求的“query”，因此在给出的结果中就有很多发挥的余地，可以给用户制造一些惊喜，这一点和搜索很不一样。

根据策略不同，推荐系统有不同的实现方式。比如基于内容的推荐，很接近一个搜索引擎，实际上很多推荐引擎底层的技术实现，尤其是数据存储上大量借鉴了搜索相关技术，比如按照兴趣标签对推荐候选池做倒排索引。另外，搜索是针对个人用户的，一个用户发起一个请求，而推荐系统既可能真对单个用户进行推荐，也可能针对用户群进行推荐。

广告则是一个很特殊的存在，它在产品形式上很像推荐，总是“不请自来”，而在技术实现上又兼有推荐和搜索两者特点，而且它又是一个商业驱动的系统，所以更多关注商业利益最大化。

有一个很有意思的现象，搜索和推荐的信息对象理论上可以共用的，也就是说可以允许用户设置条件检索一堆候选对象，也可以把这些候选对象主动推荐给可能感兴趣的用户面前。但是广告的信息对象却是另一个隔离的存在，为什么不能让用户直接设置条件检索我们的广告库存呢，就像是一个通常的搜索引擎一样？也许是可能的。

抽象看三者

这三个系统有这些特点，对于大多数成熟公司，他们已经被把持在三个不同的团队部门手中，各自团队每天在同时填着大同小异的技术坑。

我们抽象一下三者的需求共性：本质上都是在匹配，匹配用户的兴趣和需求（看成context），但匹配的目标，条件和策略不尽相同。

进一步抽象下去，又可以分为三步：过滤候选（filter）+排序候选（ranking）+个性化输出（personalization）。

过滤候选这一步在搜索里面天经地义，query解析得到查询意图，或者更多结构化的搜索条件，用结构化的查询条件去倒排索引中获取搜索候选。

与之相似的是广告系统，搜索广告也是拿着query去获取候选广告，而联盟广告则是拿着用户标签去需求方获取广告候选。

filter在基于内容的推荐策略中也有类似的过程，而其它推荐策略，比如协同过滤或者隐因子模型，一般是提前计算好的，并没有明显的类似搜索一样的filter，不过我们仍然可以抽象地把各种不同召回策略视为filter这一步，只不过filter并不是同步进行的，而是异步进行的。

ranking这一步主要区别在于排序的目标和约束。搜索的排序目标是高相关性，无论BM25为代表的传统排序模型还是以Learn to rank为代表的机器学习排序，皆如此，用户每次在搜索上花费的时间是不是更少（而不是更多）来衡量搜索的效果。

推荐系统的ranking比较复杂，相关性只是很小的部分，根据推荐系统的产品形式不同，ranking时排序不同。通常推荐系统用CTR预估来融合各种召回策略得到的候选集，如果做得深入，还需要考虑Exploit－Explore问题。附加的约束则千变万化：电商中，当天买过的当天就不能再推了，新闻推荐里，重复的新闻不能再推了，某些场景需要推荐搭配，某些场景需要推荐相似，topN 推荐还需要考虑多样性，序列推荐要考虑前序和后续，etc。

广告系统的排序更多是从经济学角度去看，通常CPC广告的排序方式是结合预估CTR、出价、广告质量三者一起考虑。同时还要考虑很多别的因素，尤其是商业因素，平台方的要求，广告主的要求等等，是一个纯动态博弈，正如微软亚洲研究院的刘铁岩所介绍那样[4]。

personalization最被推荐系统看重，而且在某些场合，个性化一度成为推荐系统的代名词，然而个性化只是推荐系统的衡量指标之一而已，个性化的前提也一定是信息够丰富够垂直才行；搜索的personalization相对来说就粗浅一些，常见的是利用地域等人口统计学来做personalization，而且对于歧义较少的query，搜索如果太个性化既没意义又有风险。

三者的协同

虽然事实上三个系统目前是军阀割据，但其业务和技术上已经有很多重叠，也能够产生很多协同作用。

有一部分搜索需求是无法用搜索相关性满足的，比如“一个人的夜晚听什么歌”这样的query，需要推荐系统去满足，交互形式可能是眼下大热的bot，也可能是传统的流推荐等等。如果能够识别出这样的搜索请求，其实更应该交给推荐系统来响应。

推荐系统总体上滞后于用户的即时需求，所以强大如Amazon这样的推荐系统，也是有搜索引擎来与之配合的。一方面，搜索因为能够满足用户的主动寻找需求，所以能够化解一些推荐不力不及时的尴尬；另一方面，搜索可以积累用户兴趣数据；当二者结合起来考虑时，可以避免“搜什么推什么”的窘境，整个系统能够综合考虑哪些是即时快速需求，哪些是长期兴趣。

广告系统，在技术上和搜索跟推荐并无本质差异，差异在意图不同，功能不同。对用户的信息需求满足，搜索和推荐离真正得到满足之间总是有一定的鸿沟，要么是信息不足，要么是信息过载，这些鸿沟可以利用经济手段进行调配，也就是广告系统。