千万别因选错指标,毁了你的A/B实验

实验设计主要有三个步骤:选择实验指标、确定实验受众和设计实验版本。

其中,选择正确的实验指标至关重要。在设计实验时,真正尝试过的同学都会意识到这里有很多坑。

很多时候实验上线了,但是指标定义的不准确,导致得不出结论,或者甚至得出了错误的结论;有时候实验表面上看起来很成功,但对下游的某一个指标有很大的影响,但是我们压根不知道。

以上问题,应该如何避免?

一、选择正确的实验指标

1. 实验设计的三个步骤

(1)选择实验指标

选择实验指标是实验设计的第一步,我们要回答的最关键问题是:哪些指标能够衡量实验的成功或失败?这一步非常重要,就像做增长要先找到北极星指标一样,做实验也要先找到正确的实验指标。

(2)确定实验受众

确定实验受众是实验设计的第二步。我们需要清晰地定义出实验受众,并估算出所需要的样本量。这样你就可以根据你具体的情况来做一些调整,比如说减少一些实验的版本数,或者加大这个实验版本的改动的程度。

(3)设计实验版本

设计实验版本是实验设计的第三步。如果采用第三方实验工具,整个流程相对简单;如果要自建实验系统进行设计和开发,流程会比较复杂。

本文主题聚焦于如何选择核心指标,未来再逐步分享如何确定实验受众和设计实验版本。

2. 亚马逊中国的实验指标选择

下面通过亚马逊中国的案例,说明为什么选择正确实验指标至关重要。

(1)亚马逊中国购物车AB测试第一次失败

a. 第一次实验指标选择销售额,新版本表现更差

亚马逊中国想做一个购物车的AB测试。中国用户习惯把购物车当收藏夹用,部分选择产品结账,其余产品留在购物车里。但亚马逊全球的购物车设计是全部结账的模式。

亚马逊中国的团队针对这样的发现,就想设计一个 AB 测试来测一下。如果把亚马逊中国也改成可选择部分商品结账,这样的这样一种更受中国用户习惯的方式,是不是效果会更好?

他们第一次选择的实验指标是销售额,实验上线后,结果是跑了一个月的部分结账版本输给了全部结账版本,销售额更低,不得不进行了回滚。

b. 进一步分析发现新用户不熟悉全部结账,导致销售额虚高但长期满意度下降

团队百思不得其解,为什么在中国其他电商网站上成功的版本,在亚马逊中国不适用?进一步分析后有三个发现:

①第一个发现是新用户刚接触全部结账的版本(也就是老版本)还不够熟悉,很多人都会出现一不小心买多了的情况,所以就会推高老版本的销售额。这些一不小心买多了的用户,只有部分会去退货,因此销售额还是比较高的。

②但是买多了的用户长期满意度下降,因为他们过一段时间反应过来了,发现自己不小心买多了。

③在部分结账的版本里面,很多用户其实会把购物车里面保留的产品过一段时间又买回来,所以这些产品其实是有潜在销售的机会的,但是用户的购买时间存在延迟,因此在之前做实验的事后是显示不出来的。

c. 亚马逊中国首次实验指标选择小结

最后,亚马逊中国团队得出结论:如果第一次实验就对比更多指标,可能会发现全部结账版本短期销售额高,但退货率高,长期满意度低;而部分结账版本长期复购率和销售额更高。但第一次实验只关注了短期销售额,没关注其他指标,导致得出老版本更好的错误结论。

(2)亚马逊中国优化实验指标,二次实验成功

基于上述总结认知,亚马逊中国团队重新定义实验指标,进行二次实验。

核心指标从第一版的短期销售额,变成了综合销售额的概念,不仅包括短期直接销售额,还包括对长期销售额的预期。

同时,也加入了一系列辅助指标,如复购率、下单频次、结账转化率等。这些指标虽然不足以直接说明实验的成败,但是可以从各个侧面辅助我们做出决策。

最后,还加入了退货率作为衡量负面结果大小的指标。

通过全面观察一系列实验指标,部分结账的新版本最终胜出。它不仅带来了综合销售额的提升,还带来了下单频次的提升,终于成功上线。

亚马逊中国团队并没有改变实验版本的任何设计,只是选择了更全面准确的实验指标,就从实验失败变成了成功。

由此可见,AB实验成功的关键在于选择正确指标,包括核心指标、辅助指标和反向指标,以全面、准确地衡量实验成效。

二、准确全面衡量实验成败的三类指标

那么,想要准确全面地衡量实验成败,应该如何选取指标?建议大家考虑选择核心指标、辅助指标和反向指标这三类实验指标。

1. 核心指标:决定实验成败的关键指标

(1)核心指标代表实验的最终北极星指标

核心指标是决定实验成败的关键指标。对于做增长实验来说,我们要找到决定这个实验成败的最关键指标,它是我们后期进行统计显著性计算,决定新老版本哪个更好的指标。

(2)案例:APP首页新手引导板块AB测试

某 APP 做了首页新手引导板块的改版,它的目标是想让新用户了解产品功能,完成初始设置。

实验假设是通过让用户阅读更多的新手介绍文章,告诉他们这个产品怎么用,可以帮助他们完成初始的设置。

A版本是新手文章呈卡片式排列,B版本是文章呈清单式排列。如果关注点击率,就会发现B组清单版本表现更好;但如果关注新手设置完成率,就会发现A组卡片版本表现更好。

这种情况下,核心指标应该选新手设置完成率,而非文章标题点击率。和选择增长北极星指标一样,做实验时也要注意不要选择虚荣指标。

要以实验最终目标为准绳,选择最能代表目标的指标作为核心指标。虽然B组点击率更高,但根据实验最终目标,它的表现更差,最终胜出的是A组卡片版本。

2. 辅助指标:全面了解实验结果

对于绝大多数简单实验,可能只有一个核心指标就够了。但对于比较复杂、涉及长漏斗或对下游指标可能有影响的实验,我们还要选择辅助指标。

(1)影响整个用户漏斗的各个步骤

衡量实验成败的第二类指标是辅助指标,它可以帮助我们全面了解实验结果,确保没有误伤到某些指标。如果实验影响到整个用户漏斗,我们不应只看漏斗的最终步骤,还要监测对整个漏斗所有步骤的影响。

(2)关注下游和其他用户关键指标

如果有一些重要的下游指标,我们要全面观测实验会不会对某个下游指标产生影响,以及对其他用户关键指标的影响。

(3)案例:Airbnb采用关键指标仪表盘全面评估实验影响

事实上,一些硅谷大规模进行增长实验的公司如Airbnb,他们采取的方式是做一个关键指标仪表盘,任何一个增长实验的结果都会放到这个仪表盘上,观察对任何关键指标有无影响。如果有影响都会显示出来,这样就可以避免一不小心误伤到某些指标的情况。

3. 反向指标:提示实验可能的负面影响

(1)为什么需要反向指标

反向指标可以提示实验可能的负面影响。如果负面影响很小或没有,我们就可以宣告实验成功;如果负面影响太高,就算核心指标表现更好,我们也可能直接否决实验结果。一般来说反向指标选取1-2个即可。

(2)常见反向指标

常见的反向指标包括NPS、应用删除率、邮件退订率、push退订率以及页面退出率等。

综上,核心指标衡量关键实验成果,辅助指标全面理解实验作用,反向指标防止忽视负面影响。

4.综合案例:电商网站购物车按钮AB测试指标选择

举例,如果一个电商网站想做加入购物车按钮的AB测试,测试各种购物车按钮哪个表现更好,应该怎么选择指标?因为购物车按钮在产品详情页上,我们可以把整个用户购物漏斗画出来。

(1)核心指标

此案例中,应该选择的核心指标就是加入购物车按钮本身的点击率,因为它是实验想影响的主要的目标。

(2)辅助指标

在这个例子里面,虽然最终的目标是提高销售额,但是加入购物车和提高销售额之间有非常多的步骤,因此我们应该把加入购物车作为核心的指标,而销售额作为一个辅助的指标。

其他的辅助指标还包括加入购物车按钮的点击次数,有多少人访问购物车的页面,或者在购物车下单成功销售额、复购率等等。

(3)反向指标

最终的反向指标可能是退货率

通过选择合适的三类指标,我们就可以全面衡量这个改动对整个购物漏斗的影响,不会只看到其中一方面而漏掉其他可能的影响。

以上就是如何通过三类实验指标准确全面的衡量实验的结果,后续还会介绍如何通过 AB 测试的系统和工具来确保科学分流和结果的可信性。

所以,不要害怕实验中的失败和挑战,而应该更加聚焦于如何通过科学的方法——正确选择指标、深入了解受众、科学流量划分,来提升我们的实验设计能力。因为每一次实验,都是向成功迈进的一步。

千万别因选错指标,毁了你的A/B实验

版权声明

本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部