用户增长实验三部曲（2）：如何准确评估「产品和运营策略」的效果？

jinlei886 2023-07-22 14:25:20

如何准确评估产品和运营策略的效果，几乎是所有产品经理、产品运营、数据分析、市场营销等同学日常工作中都会碰到的问题。大到一个新产品上线、一次产品方向调整；小到一次运营活动、一个文案修改，我们都付出了成本，按理说我们都需要知道有没有效果（定性），效果比之前好了多少（定量），对KPI贡献了多少（归因）。

数据总是有的，通常我们会不自觉的挑选利于结论的数据来说明效果。那么，有没有一套准确的、有说服力的评估办法呢？有的，那就是实验（对了，这就是实验三部曲之二——准确量化效果，从之前的数据看如果不改标题点击率会很低）。

01 两个常见错误

我们最常见的、也最容易想到的效果分析方法是前后对比。

前后对比非常直观，比如，上线了一个新功能，配置了一个App闪屏，做了一场线下活动（便于描述我们统称策略），带来了多少效果？很多同学会直接拿这个策略“做之后”对比“做之前”得到增量，即

效果 =策略后 – 策略前

这样对比的问题非常明显：

活动前后一段时间，用户的活跃度是不同的。比如，某打车APP在清明期间做了一个运营活动，用清明节三天对比清明前三天，可以看到订单量猛增。这个效果可以归因于这个策略吗？

另外一种常见的效果分析，是局部对比整体或者说对比大盘。对比大盘也非常直观，我们往往会拿需要观察的人群（或者被策略命中的人群），来对比大盘得到增量，即：

效果 =观察人群-大盘人群

这样对比的问题也非常明显：观察人群往往是大盘中一个子集，只要不是随机从所有用户中抽取的，就有极大概率与大盘均值存在偏差。

比如，电商App运营活动，给进入手机详情页的用户发100元折扣红包，最后发现发了红包以后，用户群购买手机的的比例是同时间段大盘的两倍。这个效果可以归因于这个策略吗？

以上两个错误，在我经历过的大厂，并且就在今天，依然有同学经常会犯，只不过没有这么明显。错误的根源是用于对比分析的两组样本，本身不具备“可比性”。

判断可比性的原则：对比的人群间，是否仅存在“要评估的策略”这一个差异。一旦两个人群本身存在差异（非随机分组），或者其中一个人群中叠加了多个策略（非单一变量），都无法通过对比直接得到该策略的效果。

上面两个例子，大家都能看出来是不可比的，因为很明显存在样本偏差。

反推其原因，我觉得除了分析时不够谨慎外，还有就是存在惰性：前后对比、对比大盘，之前的数据和大盘数据往往都是现成的，拿来就比。

而科学的评估效果，则往往需要设计随机对照实验，成本、时间都增加了不少。而想要准确的评估策略效果，实验尽管有些麻烦，但是绕不开。

02 正确的评估方法

正确的评估方法是随机对照实验。实验的设计和下发，我们在《以抖音为案例，讲清楚“用户增长实验”在做什么》已经大概讲过，涉及到随机分组的方法，以及置信度等问题，不是本篇重点。本篇不妨先假设随机分组完美，实验下发理想，实验结果置信，仅讨论分析方法（这些问题可以交给实验工具）。

接上一部分，正确的效果评估，需要拿实验组-对照组获得增量，即

效果= 实验组- 对照组

假设我们已经拿到了数据，分析前需要确定分析方法。这里的分析方法包含三个要素：样本、指标、维度。

样本：通常是实验期间被实验命中的用户，含实验组和对照组
指标：根据实验目的来定，通常包含整个人群的总体指标和人均指标两类（如实验组总时长、实验组人群时长）
维度：时间维度，看一天、还是完整的用户周期；人群维度，仅看当日命中，还是累计命中等

不同的实验场景，需要我们组合不同的分析方法，下面我通过3个典型案例来具体介绍。

1. 流量型

流量型实验最为常见，也最为理想。它指从整个流量（活跃用户群）中以某些条件筛选一部分，随机分组下发不同策略。

之所以理想，是因为整个样本可以看着是一段时间内状态稳定的群体，即实验前也是活跃的，可以进行理想的空跑期（即分好实验组和对照组后，并不立刻下发策略，而是观察一段时间以验证分组的均匀性，并且可以在实验分析时消除空跑期的差异；而拉新实验，新用户就没有空跑期数据）。

流量型实验，我们可以轻易对比实验组和对照组需要看的指标，例如：

样本：每天命中的实验组和对照组用户
指标：根据实验目的来定，人均值通常有意义
维度：时间维度，完整的周期；人群维度，一般仅看当日即可，也可关注累积

常见的流量型实验场景：短视频App的feeds流推荐算法实验、App首页底部入口实验、电商详情页样式实验等。

2. 唤醒型

唤醒型实验也比较常见，比如我们圈定某App的沉默人群（不妨定义为14天内不活跃用户），实验组通过App下发Push，而对照组不下发。实验的目的是评估下发Push对用户活跃度的影响。

样本：所有沉默用户，实验组和对照组
指标：根据实验目的来定，处理人均值通常要小心
维度：时间维度，完整的一周；人群维度，需要看累积用户

为什么这类实验处理人均值要小心？

人均时长为例，人均值指标通常会拿总时长/活跃用户数。实验组通过Push唤醒用户后，其活跃用户数增多，但是由于唤回了部分沉默用户，其总体时长增加，人均时长可能反而会减少，最终可能造成“push降低了人均时长”的误判。

为什么需要看累积用户？（过于细节，可以跳过）
这个问题很容易被忽略，相对复杂，后续可以单独展开一篇文章，先简单介绍：

类似Push这样的唤醒实验，有经验的同学会知道，随着Push下发次数增多，一部分用户会转化为主动打开用户、而一部分用户可能就会关掉Push甚至卸载。

当我们在分析“持续发了一段时间的Push”对今天用户活跃度的影响时，需要看这一段时间以来所有命中过Push策略的用户，而不仅仅看今天命中Push的用户，否则我们会漏掉Push可能造成的负面影响（很多关闭Push用户和卸载用户不在今天命中Push的用户之中了）。

常见的唤醒型实验，除了对沉默用户发Push，还有App的图标红点实验，以及某些App通过短信下发优惠券实验等。

3. 分享型

分享型实验，由于涉及到分享者和接受者，会更加复杂。例如，我们想看不同的分享文案，对分享点击率的影响，我们可以将对分享者随机分成AB两组，对应分享文案分别为A文案和B文案。

这里会有一个问题：A组和B组中的用户（分享者），很可能存在共同好友（接受者）；这些共同好友，有可能会在朋友圈先后看到A文案和B文案的分享链接。而这些用户点击分享链接，很大程度上取决于先看到哪一条，而不是文案。所以，从看A、B两组分享链接的点击率，很可能无法发映出文案的影响。

设计实验时，我们无法保证用户分享给谁，也就无法预先设置“分享者-接受者”这样的用户对。对于这个case，我们应该设计成所有分享者随机出A、B两个文案，最终我们只需要分析的是A文案和B文案的点击率，而此时共同好友的影响就被抹平了。

现在分享裂变做的很多，裂变的文案、卡片样式、红包金额，等等都是关键的实验变量，由于其复杂性，我们后面可以针对具体案例来做专门的分析。

03 尾巴

上面介绍了正确评估产品和运营策略效果的方法，就是实验，以及针对不同类型实验的分析要点。限于篇幅，只列出三类比较有代表性的实验类型，这些是我长期工作实战中的总结，应该在任何书籍、文章中都没见过，如有疑问还请指出~~

准确的效果，才能够帮助我们判断策略是否真正值得去做放大，进一步去争取更大的资源。虽然有些复杂的地方，但是相信大家都值得一试。

最后请记住：有条件，快上实验；没条件，创造条件做低成本的实验，用户ID包随机下发也是可以的，后端需要简单的支持。

真的不能实验怎么办？——还有一招，通过因果推断方法，近似构造实验组和对照组，后面我们详细介绍。

预告：实验三部曲-3 准确量化进阶版，我们将讨论更多可能导致分析结论错误的要点，比如SRM问题（Sample Ratio Mismatch）。当然，需要看下这一篇的反馈排优先级了~