如何复盘增长策略的落地实验？看这篇就够了

2021-01-20 15:40:00

当我们完成了增长实验并拿到了实验结果时，需要通过评估实验结果的可信度和是否达到预期来评估增长实验是否成功以及针对评估结果是否进行下一步的实验的决策。

一、评估实验结果的可信性

评估实验结果可信性是分析增长实验结果的第一步。它的关键点是实验结果是否达到统计显著性要求。

统计显著性：实验指标的差别是真实存在的，而不是随机误差引起的。

如果我们使用第三方A/B测试工具，只需要第三方系统持续进行实验和收集样本，结果会实时更新，在达到预先设定的统计显著性要求时，自动提醒实现达到统计显著。

如果我们自己手动计算，则需要按照预先估计的实验时长结束实验，手动根据实际的样本数和转化数计算是否达到统计显著。

评估实验结果时，常遇见的问题：

问题一：实验时长太短，导致实验结果不可信。

场景1：实验上线后，就发现结果很糟糕或者很好，就草草的将实验的终止了。实验没有达到统计显著。

对应方法：这种情况可以通过统计学中的新奇效应来解释：在增长实验的早期，用户因为新奇会关注新改动，但往往显著的早期提升在之后的几天或几周的测试中会逐渐消失。因此我们要预先设定实验时长，给实验足够的测试时间，达到了统计显著后再评估实验结果。

场景2：实验虽然达到了统计显著，但结束过早，仅有产品的高频用户被包含在该实验内。

对应方法：在设定实验时长时，要充分分析用户的天然登录频率情况，保证不同登录频率的用户都可以被均匀的分配到实验中。

问题二：实验预设不准确，导致实验结果不可信。

场景1：实验工具和测试环境存在问题，导致流量分配不均匀。

对应方法：在A/B测试前，进行至少一次测试，保证实验组和对照组的流量均匀且随机分布。

场景2：同时进行多个增长实验，实验之间互相产生干扰。

对应方法：尽量避免针对同一用户群体，在相近的路径或者页面中，同时进行两个及两个以上的增长实验，以确保实验版本符合预期。

场景3：在实验开始后，修改实验设置。导致流量分配不均匀。

对应方法：在实验进行时，不要更改实验设置。

问题三：无法合理分析实验结果。

场景1：实验时，仅关注一个指标，忽略了实验对其他指标的可能存在的影响。

对应方法：设置三类指标，全面监测实验的好坏影响。

场景2：对于某个实验版本有严重倾向性，仅看好的数据反馈，忽略坏的数据反馈。

对应方法：通过数据分析，对所以版本保持严谨一致的态度。

场景3：各种特殊性，人为事件的干扰，如购物节，服务器崩溃等。

对应方法：实验进行中，尽量避免已知的可能干扰实验结果的外部因素。

二、分析实验结果的成功性

2.1.通过实验指标判定成功率

增长实验的结果成功概率主要是通过三类实验指标进行评估的。即：

核心指标：实验组是否比对照组有所提升。
辅助指标：变化是否符合预期，是否和核心指标的趋势一致？
反向指标：是否没有明细的负面影响，或者有负面影响，但可以接受。

除了通过实验指标评估实验的成功与否，还可以通过实验的观察周期来评估实验是否成功。

短期观察：实验结果达到统计显著后，即可停止实验，分析实验指标，得出结论。
长期观察：如果实验针对的是长期指标，实验停止后，需要长期监测对核心指标的影响，以确认最终结果。

通过以上四种情况，我们也可以总结出：

如果实验组胜利，即统计显著有提升。那么说明增长实验所改进的元素和方向都是正确的。我们可以继续优化。
如果统计显著有所下降，那么可能说明增长实验所改进的元素是正确的，但是改进的方向并不正确。需要修正改进的方向。
如果统计显著没有明显的变化，那么说明增长实验所改进的元素和方向都不是影响用户的关键的位置，需要我们重新对产品数据进行分析。

2.2.分析实验结果的产生原因：

如果我们预期改动可以提升某个指标，但指标不升反降。可以通过以下这几个方式进行分析和测试：

漏斗分析：通过分析确定漏斗转化路径中与预期假设不符的环节有哪些。
结果分群：对实验结果进行分群，对比总体实验结果与分群后的结果是否一致。
用户调研：将实验不同版本呈现在用户面前，观察用户对各个版本的反馈。
反复实验：针对结果形成的新假设，进行反复实验，从而对新假设进行验证。

案例：某电商平台通过结果分群和用户调研，分析实验失败原因。

实验目的：某电商平台希望提高某品类频道的营收，
实验方案：将该品类入口从网站的右上角移到网站的左上角。原因感觉更加醒目。
实验结果：该品类频道点击率下降70%。
结果分析：按新老用户分解，发现新用户点击率上升，老用户点击率下降明显。
结果假设：可能老用户已经习惯了原有的位置。通过用户可用性调研，发现老用户行为确实如此。
实验方案：提前向老用户发通知，告诉老用户该品类频道入口即将移动位置，并将用户引导到新的位置。
最终结果：新版本上线一段时间后，老用户在该品类频道的点击率回升到原有水平。

2.3.实验后续迭代方向的判断：

在这一步中，我们基于实验的结果进行更进一步的分析，判断是否将实验结果进行产品化还是放弃实验结果。亦或是对结果不满意，继续迭代。

针对某一个点的实验结果取得成功后，我们如何放大实验结果的影响呢？我们可以观察是否可针对这个实验点，进行更多的其他实验。因为如果这个实验点取得了成功。说明这个实验点可以影响用户在产品中的行为。那么最初的实验版本不一定就是最理想的实验版本。我们进行不断的优化来进一步提升实验结果。我们还可以观察是否可以将这一次的取得成功的实验思路和分析角度用于产品渠道等其他方向。我也可以根据这次实验结果，去协助我们重新审视其他实验想法的准确性和优先级。

三、实操案例说明

小编通过一个增长实验案例来实操一下：如何对实验结果进行分析。

假设你现在设计了一个关于提高keep的用户的关注转化率的增长策略方案。目前我们可以获得的信息是：

实验版本数：实验组一个，对照组一个。
点击文章或动态页关注按钮的原本关注率是5%
目标定位点击文章或动态关注页按钮的关注率达到6%

实验一：实验周期为3个自然日

数据分析：

实验周期较短。根据健身类用户产品使用习惯分类：

高频类用户每天登录一次
中频类用户每周至少登录三次
低频类用户每周至少登录一次。

实验周期仅为三天，对中低频用户群体的触达概率较低，无法有效达到实验受众的设置要求的用户覆盖范围。

核心指标：关注按钮转化率达到要求统计显著。
辅助指标：

每次访问平均时长：正向增长17.24%，增长异常。通过定性分析发现平均阅读时长作为内容阅读类功能的北极星指标与关注转化率无明显的正相关性。而实验优化方案则是通过降低用户阅读内容的聚集度从而提高关注按钮的聚集度。因而每次访问平均时长大幅度正向增长具有偶然性。间接证明该实验的不可信。
内容点赞数：正向增长7.81%，与核心指标增长趋势相同，增长范围合理。

实验结果的可信性评估结论：该实验结果不可信。

优化方案：将实验周期调整为14天。