如何平衡实验效率与准确性?关键点在这里
很多人认为实验的成功取决于创意和执行。但其实,关键在于如何界定实验受众和样本量。魔鬼往往藏在细节中……
01 确定实验受众
1. 实验受众的选择标准
(1)全体用户 vs. 特定条件的用户
确定实验受众主要回答两个问题:
- 哪些用户会被包含在实验中
- 需要多大样本数和多长时间才能得到可信的结果
针对第一个问题,具体情况需具体分析。
有时希望所有用户都参与实验,就无需特别设置受众;如果只想让特定条件的用户参与,才需要设置实验受众。
设置实验受众的目的,是针对某个用户群体生成更精细的产品优化方案。
第二个问题,本文后续会展开说明。
(2)案例分析:新闻APP广告点击率实验
举个例子,一个新闻APP的用户分两类:看新闻赚零钱的,和喜欢游戏玩乐的。该APP想测试不同广告banner的点击率。
假设是,”喜欢玩乐”的人看到”葛优躺”的banner,点击率会更高。所以进行这个实验时,就应该单独摘取”喜好玩乐”的用户。
针对”喜欢玩乐”的用户,分别投放”葛优躺”创意banner和其他banner,测试点击效果。
2. 实验受众的分类方法
(1)默认分组:操作系统、iOS版本
通过第三方AB测试工具设置实验受众非常容易。工具里有一些默认的受众分组可供选择,比如操作系统、iOS版本等。
假设某个实验只针对iOS 12用户,比如测试一个自动填表单的功能。那进行实验时,就可以选择默认方式,只针对iOS 12用户,因为其他用户就看不到这个功能。
(2)自定义分组:特定渠道来源、产品使用情况
除了默认分组,还可以定制分组。产品经理或增长黑客提需求给研发,由研发来完成自定义受众分组。
比如只想针对某个渠道来源的用户(如信息流广告或百度搜索)给出不同的首页设置,就可以通过自定义受众方式完成设置。
再比如,招行有各种用户:有的有信用卡,有的买了理财。
如果招行想在首页做个实验,但只针对有基金账号的用户,也可以通过自定义受众分组找出这部分人,针对性地做实验。
02 估计所需样本数
1. 样本数的重要性
我们再来看第二个问题:如何预估实验所需的样本数。这里有个例子,一个公司想测试把首页的蓝色按钮改成红色,看看点击率如何。
实验上线3小时后,初步统计100个用户样本数据,发现蓝按钮的转化率是20%,红按钮只有12%。此时很多人就要下结论了:蓝按钮更好。
但等等,这个样本数太小了!不可能根据这么小的样本得出可靠结论。
于是公司继续实验。上线3天后,样本数已经比一开始大很多了,上千个样本,点击数也有好几百。
这时蓝按钮的转化率掉到6%,红按钮的转化率升到9%。感觉差不多了,红按钮应该更好,但还不能完全确定。
如果实验跑300天,样本数非常大。可以看到,两种按钮的转化率都有所下降,但蓝按钮稳定在4.8%,红按钮稳定在7.2%。有了如此大的样本,才可以比较有把握地得出结论。
但在实际的操作中,不可能等 300 天再对一个实验进行分析得出结论。
可见,只有精确界定实验受众与合理预估样本量,才能确保实验快速迭代与结果的可靠性。
2. 影响样本数的因素
如果从结果的可靠性出发的话,样本量越大,实验时间越长,那么实验结果就越可靠。
但是如果从实际工作出发,样本量越小,实验时间越短,才能保证快速上线新实验,试错的成本也越小。
所以想要在这两者之间找一个平衡,其实就是要找到一个最小的样本量,保证达到实验结果可靠,但是又不会浪费过多的时间和样本数。
影响实验所需样本数有三大因素:原版本(对照组)的转化率、新版本(实验组)的转化率,以及统计显著性要求。
(1)对照组和实验组的转化率
两组测试的转化率越小,所需的样本量就越大;反之,两组的转化率越大,所需样本量就越小。因为需要足够的转化用户样本数,这个很好理解。
同时,实验组相比对照组转化率提升幅度越大,需要的样本量就越小;反之,提升幅度越小,比如从1%提高到1.05%,检测的敏感度要求就越高,需要的样本量就越大。
(2)统计显著性的要求
什么是统计显著性?其实就是进行增长实验的时候,通过检验对照组和实验组的转化率差异,来确认这个差别是真实存在的,还是随机误差导致的。这就是”统计显著性”的概念。
如果检验发现某个指标的转化率差异,且统计显著性达到95%,就说明有95%的可能性这个差异是真实存在的。也就是说实验组确实比对照组好,只有5%的可能性是随机误差导致的。
统计显著性越高,随机误差的可能性越低,结果就越可靠。一般做增长实验,建议至少要求95%的统计显著性。
3. 实用工具:AB测试样本计算器
介绍一个工具:AB测试样本计算器,网址是https://www.eyeofcloud.com/abtest-widget/124.html
它主要有三个输入字段:原始版本(对照组)的转化率、优化版本(实验组)的转化率,以及统计显著性要求(可以在90%-100%之间选择)。
输入这三个数字后,它会自动计算出每个版本所需的样本数量。
比如,原始版本转化率15%,优化版本转化率18%,统计显著性要求95%,它会算出每个版本需要1700个样本。
如果新版本的预期转化率与原始版本差别很小,比如只有16%,那每个版本所需的样本数就会大幅增加。
03 估计实验时长
1. 实验时长的计算方法
学会预估实验样本后,我们进一步预估实验需要多长时间。也就是收集到足够样本以确认统计显著性所需的时间。
计算公式很简单:预估实验时长=实验总样本数(各版本所需样本数之和)÷实验页面或路径的日访问量
举例,如果分两个版本实验,每个版本所需样本总量是2900,则所需总样本是2900*2(两个版本),即5800个。
假设该页面每日访问量是580,那预计需要实验10天才能得到统计显著的结论。
如果要分4个版本测试,所需总样本加倍,预估实验时间也就加倍到20天。
2. 实验设计的合理性检查
(1)样本数量与实验时长的平衡
为什么要预估实验样本和时长?就是为了检查实验设计是否合理。
通过预估,我们可以知道达到统计显著需要多大样本,有没有那么多流量或用户量,实验要跑多久,时间是否过长。
如果一个200多天才能完成的实验,基本就等于判了死刑。
(2)反思:小流量情况下的实验设计
所以,如果发现实验样本不够或时间冗长,就得想办法:
a.减少实验版本数。能不能减少实验版本数?比如不要测四个版本,只测两个版本,版本数越少,所需总样本就越小,所需时间也越短。
b.更换实验页面。假如想测试在下单转化路径中加入其他用户的推荐,如果放在最后几步,那里流量可能很少,不如放到产品详情页,同样的思路,那里的流量会大很多,有助于快速得出结论。
c.增加流量。如果面临样本量太小的问题,是不是应该先设法吸引更多用户,留存更多用户,再去做实验?
d.加大改动幅度。在小流量情况下做一些很小的改动,预期变化很小,其实意义不大。因为流量或用户数越少,实验改动就要越大,小修小补作用不明显。
04 大公司与小公司的实验策略
我们经常听说Facebook、抖音每时每刻都有成千上万个实验在跑,Google把一个蓝色按钮测了20多个色号,得出了非常好的结果。
背后的逻辑是,这些产品的用户量巨大,可以进行大量细小的实验。即使每个实验的结果提升不大,但基数庞大,最终对利润和营收的贡献也很可观。
但如果你在一个小公司,流量和用户没那么多,也去测20个按钮色号,很可能的结果是,等到地老天荒也没等到统计显著的结果,公司都黄了。
所以建议流量和用户少的情况下,要做大的改动,同时想办法提升用户基数和流量。
最后总结一下,”要致力于品质的提升,而不是数量的增加。”这句话同样适用于AB实验设计。
通过精细化设定实验受众,合理预估样本量和实验时间,可以在保证数据质量的前提下,有效地减少实验的盲目性,提高实验的成功率和效率,进而为产品和用户体验的优化提供可靠的数据支持。
版权声明
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!