搜广推策略产品：灰盒“look alike”策略在微信看一看上的应用（下篇）

策略产品Arthur 2023-08-08 21:57:42

上篇讲完“look alike”常见的机器学习&深度学习策略，我们今天找个具体在微信看一看广告资源位场景下的实例，更加深切感受一下look alike的策略，如何通过RALM模型框架实现种子人群扩展的思想，如何达成“准而全”的营销投放诉求。

一、RALM模型框架在微信看一看中的应用

RALM模型框架说明

大体的过程主要分成三个模块，分别是最下层的离线训练、到在线异步处理，再到在线服务。

1. 离线训练

离线训练架构图

离线训练，主要包含representation learning（用户表示学习）和look alike learning（用户相似性学习），进行完 look alike learning 之后，可以把 user 经过全连接层的 user 表达 Eu缓存起来。全量用户，有10多亿，可以 catch 到 KV 中。可以提供给在线服务做缓存，线上不用做实时全量传播。

1）representation learning（用户表示学习）

用户表示学习

这个模型有点类似经典的Youtube 的 DNN双塔模型，左侧下班部分是用户的各种Feature，通过embeding lookup 然后再pooling，最后把所有的特征做融合，过一个全连接层就输出了User emedding；右边则是感兴趣的item，也会做embedding生成。最后要预测内容：用户在点击了这么多 item 之后，下一个要点击的 item，最后要预测的就是表达用户兴趣的 embedding。（每个域表示一个行为分布，例如电商下单行为、公众号阅读行为）

2）Look-alike learning（用户相似性学习）

用户相似性学习

一个种子用户需要包含的信息，可以先做假设，种子用户的表达= 共性信息+个性信息。

每个用户都有自己的兴趣，但对整个群体的人群信息存在不同的贡献度，我们称为群体的共性信息：global info。共性信息和目标用户无关，只和用户群体自身有关。
种子用户群体的个性信息。种子群体中一定存在一小部分用户和 target 用户兴趣相似，这时，当 target 人群变化时，信息会变化，称为 local info。

获取global info的用户的embedding，首先用 global attention，只和 user 相关，和 attention merge 的方法类似，也是一个 self-attention。作用是把种子用户乘以矩阵转换，再乘以种子用户自己，所做的就是捕捉用户群体自身内部的兴趣分布。

local info呢，它的公式是把种子用户的矩阵乘以 w，再乘以 target user 的 embedding，再做一层 softmax，再乘以种子用户自己，这是一个典型的乘法 attention。它的作用是提取种子用户群体中和 target user 相关的部分，捕获种子用户的 local info。是一个用公式得到的这两种 local & global embedding 之后，进行加权和，这就是种子用户群体的全部信息。

2. 在线异步处理

在线异步处理架构图

离线训练结束后，是在线异步处理，主要作用是某些可以离线且和线上请求无关的计算，可以先计算完，如更新种子用户。每个 item 候选集都会对应一个种子用户列表，更新种子用户列表，可以每一分钟更新一次，这和访问用户无关，只和候选集的 item 有关。可以实时拉取用户的点击日志，更新点击某个候选集的种子列表，保证种子用户实时性。

可以把 global embedding 预计算 ( gl 只和种子用户有关，是 self-attenion，可在线做异步处理，如每隔一分钟算一次）。
计算 k-means 聚类中心，也是只和种子用户有关，可以提前计算好，如推到推荐系统内存中。
所有的东西都是定时更新，不需要线上实时计算。

3. 在线服务

在线服务说明

线上把聚类中心、global embedding 和所有用户的 embedding 都已缓存好，只需要拉取 user embedding，和候选集的 global embedding 和聚类中心。线上只需要计算 local embedding，是 target user 到种子用户的 attention，这需要根据线上请求的 urn 来实时计算。再计算一次 cosine，就可以得到相似度，这个计算量很小。

4. 最后实验结果

在微信看一看上的实验结果

算出 look alike 相似度之后，相似度的分数，可直接给到排序服务，做曝光依据。这是当时原文作者写论文之前做的在线计划 AB testing结果，对比的是用户画像匹配推送的策略，上线之后，在扩大曝光规模的前提下，CTR 基本正向稳定+1.09%（说明获取到了更多相关性的流量），种类丰富性+8.435%，标签丰富多样性+15.938%，说明在扩展过程中同时也获得了更多多样性展开的流量。