如何平衡实验效率与准确性？关键点在这里

小黑哥 2024-06-03 10:00:57

很多人认为实验的成功取决于创意和执行。但其实，关键在于如何界定实验受众和样本量。魔鬼往往藏在细节中……

01 确定实验受众

1. 实验受众的选择标准

（1）全体用户 vs. 特定条件的用户

确定实验受众主要回答两个问题：

哪些用户会被包含在实验中
需要多大样本数和多长时间才能得到可信的结果

针对第一个问题，具体情况需具体分析。

有时希望所有用户都参与实验，就无需特别设置受众；如果只想让特定条件的用户参与，才需要设置实验受众。

设置实验受众的目的，是针对某个用户群体生成更精细的产品优化方案。

第二个问题，本文后续会展开说明。

（2）案例分析：新闻APP广告点击率实验

举个例子，一个新闻APP的用户分两类：看新闻赚零钱的，和喜欢游戏玩乐的。该APP想测试不同广告banner的点击率。

假设是，”喜欢玩乐”的人看到”葛优躺”的banner，点击率会更高。所以进行这个实验时，就应该单独摘取”喜好玩乐”的用户。

针对”喜欢玩乐”的用户，分别投放”葛优躺”创意banner和其他banner，测试点击效果。

2. 实验受众的分类方法

（1）默认分组：操作系统、iOS版本

通过第三方AB测试工具设置实验受众非常容易。工具里有一些默认的受众分组可供选择，比如操作系统、iOS版本等。

假设某个实验只针对iOS 12用户，比如测试一个自动填表单的功能。那进行实验时，就可以选择默认方式，只针对iOS 12用户，因为其他用户就看不到这个功能。

（2）自定义分组：特定渠道来源、产品使用情况

除了默认分组，还可以定制分组。产品经理或增长黑客提需求给研发，由研发来完成自定义受众分组。

比如只想针对某个渠道来源的用户（如信息流广告或百度搜索）给出不同的首页设置，就可以通过自定义受众方式完成设置。

再比如，招行有各种用户：有的有信用卡，有的买了理财。

如果招行想在首页做个实验，但只针对有基金账号的用户，也可以通过自定义受众分组找出这部分人，针对性地做实验。

02 估计所需样本数

1. 样本数的重要性

我们再来看第二个问题：如何预估实验所需的样本数。这里有个例子，一个公司想测试把首页的蓝色按钮改成红色，看看点击率如何。

实验上线3小时后，初步统计100个用户样本数据，发现蓝按钮的转化率是20%，红按钮只有12%。此时很多人就要下结论了：蓝按钮更好。

但等等，这个样本数太小了！不可能根据这么小的样本得出可靠结论。

于是公司继续实验。上线3天后，样本数已经比一开始大很多了，上千个样本，点击数也有好几百。

这时蓝按钮的转化率掉到6%，红按钮的转化率升到9%。感觉差不多了，红按钮应该更好，但还不能完全确定。

如果实验跑300天，样本数非常大。可以看到，两种按钮的转化率都有所下降，但蓝按钮稳定在4.8%，红按钮稳定在7.2%。有了如此大的样本，才可以比较有把握地得出结论。

但在实际的操作中，不可能等 300 天再对一个实验进行分析得出结论。

可见，只有精确界定实验受众与合理预估样本量，才能确保实验快速迭代与结果的可靠性。

2. 影响样本数的因素

如果从结果的可靠性出发的话，样本量越大，实验时间越长，那么实验结果就越可靠。

但是如果从实际工作出发，样本量越小，实验时间越短，才能保证快速上线新实验，试错的成本也越小。

所以想要在这两者之间找一个平衡，其实就是要找到一个最小的样本量，保证达到实验结果可靠，但是又不会浪费过多的时间和样本数。

影响实验所需样本数有三大因素：原版本（对照组）的转化率、新版本（实验组）的转化率，以及统计显著性要求。

（1）对照组和实验组的转化率

两组测试的转化率越小，所需的样本量就越大；反之，两组的转化率越大，所需样本量就越小。因为需要足够的转化用户样本数，这个很好理解。

同时，实验组相比对照组转化率提升幅度越大，需要的样本量就越小；反之，提升幅度越小，比如从1%提高到1.05%，检测的敏感度要求就越高，需要的样本量就越大。

（2）统计显著性的要求

什么是统计显著性？其实就是进行增长实验的时候，通过检验对照组和实验组的转化率差异，来确认这个差别是真实存在的，还是随机误差导致的。这就是”统计显著性”的概念。

如果检验发现某个指标的转化率差异，且统计显著性达到95%，就说明有95%的可能性这个差异是真实存在的。也就是说实验组确实比对照组好，只有5%的可能性是随机误差导致的。

统计显著性越高，随机误差的可能性越低，结果就越可靠。一般做增长实验，建议至少要求95%的统计显著性。

3. 实用工具：AB测试样本计算器

介绍一个工具：AB测试样本计算器，网址是https://www.eyeofcloud.com/abtest-widget/124.html

它主要有三个输入字段：原始版本（对照组）的转化率、优化版本（实验组）的转化率，以及统计显著性要求（可以在90%-100%之间选择）。

输入这三个数字后，它会自动计算出每个版本所需的样本数量。

比如，原始版本转化率15%，优化版本转化率18%，统计显著性要求95%，它会算出每个版本需要1700个样本。

如何平衡实验效率与准确性？关键点在这里

如果新版本的预期转化率与原始版本差别很小，比如只有16%，那每个版本所需的样本数就会大幅增加。

如何平衡实验效率与准确性？关键点在这里

03 估计实验时长

1. 实验时长的计算方法

学会预估实验样本后，我们进一步预估实验需要多长时间。也就是收集到足够样本以确认统计显著性所需的时间。

计算公式很简单：预估实验时长=实验总样本数（各版本所需样本数之和）÷实验页面或路径的日访问量

举例，如果分两个版本实验，每个版本所需样本总量是2900，则所需总样本是2900*2（两个版本），即5800个。

假设该页面每日访问量是580，那预计需要实验10天才能得到统计显著的结论。

如果要分4个版本测试，所需总样本加倍，预估实验时间也就加倍到20天。

2. 实验设计的合理性检查

（1）样本数量与实验时长的平衡

为什么要预估实验样本和时长？就是为了检查实验设计是否合理。

通过预估，我们可以知道达到统计显著需要多大样本，有没有那么多流量或用户量，实验要跑多久，时间是否过长。

如果一个200多天才能完成的实验，基本就等于判了死刑。

（2）反思：小流量情况下的实验设计

所以，如果发现实验样本不够或时间冗长，就得想办法：

a.减少实验版本数。能不能减少实验版本数？比如不要测四个版本，只测两个版本，版本数越少，所需总样本就越小，所需时间也越短。

b.更换实验页面。假如想测试在下单转化路径中加入其他用户的推荐，如果放在最后几步，那里流量可能很少，不如放到产品详情页，同样的思路，那里的流量会大很多，有助于快速得出结论。

c.增加流量。如果面临样本量太小的问题，是不是应该先设法吸引更多用户，留存更多用户，再去做实验？

d.加大改动幅度。在小流量情况下做一些很小的改动，预期变化很小，其实意义不大。因为流量或用户数越少，实验改动就要越大，小修小补作用不明显。

04 大公司与小公司的实验策略

我们经常听说Facebook、抖音每时每刻都有成千上万个实验在跑，Google把一个蓝色按钮测了20多个色号，得出了非常好的结果。

背后的逻辑是，这些产品的用户量巨大，可以进行大量细小的实验。即使每个实验的结果提升不大，但基数庞大，最终对利润和营收的贡献也很可观。

但如果你在一个小公司，流量和用户没那么多，也去测20个按钮色号，很可能的结果是，等到地老天荒也没等到统计显著的结果，公司都黄了。

所以建议流量和用户少的情况下，要做大的改动，同时想办法提升用户基数和流量。

最后总结一下，”要致力于品质的提升，而不是数量的增加。”这句话同样适用于AB实验设计。

通过精细化设定实验受众，合理预估样本量和实验时间，可以在保证数据质量的前提下，有效地减少实验的盲目性，提高实验的成功率和效率，进而为产品和用户体验的优化提供可靠的数据支持。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！

标签：产品经理 A/B测试实验测试方法论黑盒测试

上一篇 > 产品经理如何做好一次有效的总结报告
下一篇 > 关注以用户为中心的体验设计

什么是顶级的数据分析方法？

为什么刷手机停不下来？来「上瘾模型」分分钟带你了解！

看完还不会画产品架构图来打我

打造转化神器！深度解析客服系统的产品设计之道

也许竞品研究根本称不上是有效的产品方法论

90%的产品经理都不懂业务，4000 字

项目中如何争取资源

揭秘：如何用“少即是多”策略提升私域转化率

产品人职场“断舍离”：开启高效之路

做小红书的7个真相

线下门店如何做好私域，让门店生意源源不断？

2025年公私域营销剧变：从「平台对抗」到「全域融合」

3年广告投放：落地页这样设计，转化率更高！

产品经理如何绘制产品路线图

这才是大厂的经营分析报告，而不是“念PPT会”

干掉需求最好的方式，就是把提需求的人干掉

SaaS增长（2）：解锁“官网设计”的那些事儿

作为管理者，该如何提高团队工作效率？

为什么有人创业会亏钱？我总结了6个原因，看看你有没有中招

如何做到私域内容的“极致复用”

深度解析市场细分的4大维度

如何让销售目标与销售过程管理有效咬合

如何将一款工具产品的年营收做到400万美金？

私域操盘手告诉你如何让用户留存翻倍增长(下)

高阶产品如何有效管理需求？

这才是大厂的经营分析报告，而不是“念PPT会”

私域操盘手告诉你如何让用户留存翻倍增长(上)

效率倍增！如何用结构化伪代码，重塑产品需求文档？

和纯银级别的大佬聊他的产品方法论

用户分层技巧大揭秘：四类分层方式，高手都在用…

用户分层的本质到底是什么？这才是精细化运营的真相

BLM战略方法论：看机会的底层逻辑

如何平衡实验效率与准确性？关键点在这里

01 确定实验受众

1. 实验受众的选择标准

2. 实验受众的分类方法

02 估计所需样本数

1. 样本数的重要性

2. 影响样本数的因素

3. 实用工具：AB测试样本计算器

03 估计实验时长

1. 实验时长的计算方法

2. 实验设计的合理性检查

04 大公司与小公司的实验策略

相关文章