为什么互联网巨头如此热衷于A/B测试？

卫夕 2023-07-30 08:02:22

一、A/B测试前身：历史悠久的对照实验

今天互联网巨头热衷的A/B测试，其实源于学术层面的“随机对照试验”，作为一种方法论，这种对照试验有着悠久的历史。

1747年，为了治疗坏血病，皇家海军的外科医生James Lind 设计了一项实验。他测试了苹果醋、大麦水、橘子等六种不同药方。

最终发现新鲜的橘子为最佳的治疗药物，尽管那时并不清楚是橘子中维C的作用。

1835年，医学史上第一次“双盲实验”在纽伦堡实现。一位名为弗里德里希的公共卫生官员，为对抗当时颇为流行的顺势疗法开启了一个赌注：将25瓶顺势疗法盐水和25瓶蒸馏水分发给50位双盲受试者。

最后8位声称产生了治疗效果，但揭盲后发现，有3位喝的其实是蒸馏水，弗里德里希赢得了赌注。

1935年，统计学家兼生物学家罗纳德·费雪（Ronald Fisher）写了一本名为《实验设计》的书。在书中，他系统论述了随机对照实验的设计原则和统计检验的方法，成为实验设计领域的开山之作。

1944年，在制造原子弹的过程中，曼哈顿计划的领军科学家奥本海默，用3种方法测试如何分离铀235，这一步骤成为整个项目中最关键的环节之一。

1960年代，大卫·奥格威用对照测试的方法验证广告的有效性——写两条不同的文案并要求报纸将其各印一半，同时在文案中留下索取免费样品的邮编和地址，但样式不一样，最终根据实际样品索取量来观察哪种文案效果更好。

……

可以清楚地看到，随机对照实验作为一种方法论，在现代科学和商业发展中发挥了重要作用。

它本质上能通过控制单一变量的方法来寻找最优解决方案，已经被广泛运用到工程学、医学、教育学和多个领域的商业实践中。

而我们今天要聊的A/B测试其实就是随机对照实验在互联网领域的具体应用。

二、A/B测试，互联网巨头的标配

A/B测试——又被称为小流量实验。

通常是针对某个功能/UI/逻辑策略等，提供两种（或多种）不同的备选解决方案，从总体用户中随机抽取一小部分流量，分配给不同方案，最终通过实验数据对比来确定最优方案。

今天，在硅谷和中国的互联网头部企业，A/B测试已经成为业务发展的标配。我们简单梳理下A/B测试是如何风靡各大互联网巨头的。

2000年2月27日，谷歌搜索部门的一位工程师进行了互联网时代的第一次A/B测试——他想知道搜索结果每页展示多少条是效果最好的，当时默认为 10。

实验是这样设计的：

对于0.1%的搜索流量，每页显示20条结果；
另外两个0.1%分别显示25条、30条。

这次测试从直接结果看并不成功。由于技术故障，实验组页面的加载速度明显慢于对照组，最终导致实验的相关指标下降。

但谷歌因此获得了意外收获，他们发现即便是0.1秒的加载延迟也会显著影响用户满意度。很快，谷歌将改善响应时间提升为高优先级事项。

以这次实验为开端，A/B测试在谷歌内部快速流行起来。

2012年，据谷歌的首席经济学家范里安称，谷歌每年就会开展超过5000次的A/B测试。

亚马逊早期，工程师Greg Linden曾提出一个想法：在客户支付时，根据他们购物车中的商品，向他们提供个性化的“冲动购买”建议。

他精心做了一个Demo，但演示后当时亚马逊的一位副总裁武断地否决了这一想法。Greg Linden并不气馁，他业余时间用三个半月完成了这一功能的开发，并对这个功能进行了小流量的测试。

结果证明，即便是这个极其粗糙、简陋的版本，也让实验组用户的购买规模提升了17%。

于是，“商品推荐”这个今天司空见惯的功能从此在亚马逊开启。

在Facebook，CEO扎克伯格曾公开宣称：

“在任何给定的时间点，都不会只有一个版本的 Facebook 在线上运行，而是有超过一万个，我们的实验框架能随时发现和感知用户最细微的行为差异。”

在中国，头部的互联网企业也都有自己的A/B测试平台。比如字节跳动的Libra、美团的Gemini、滴滴的阿波罗。

张一鸣曾表示：

“即使你有99%的把握某个名字比另一个名字更好，测一测又有什么关系呢？”

目前在字节跳动，每天同时进行的A/B测试达上万场，单日新增实验数量超过1500个，覆盖400多项业务。截至今年3月底，字节跳动累计已经做了70多万次。

三、为什么互联网巨头热衷于A/B测试？

互联网公司大规模运用A/B测试并非偶然，这背后深层次的原因在于：A/B测试是数据驱动理念的最佳落地实践，它能以最小的风险实现业务的有效反馈。

字节跳动在发布APP的时候，通常会给APP取多个名字，打多个包上架到应用市场进行A/B测试，观察不同名字的下载率、留存率等指标。

这背后其实是一种尊重客观事实的决策哲学。

事实上，在硅谷的互联网文化中，那些靠拍脑袋的决策有一个专有名词“HiPPO”：”Highest-paid person’s opinion”，即“公司收入最高的那个人说了算”。

谷歌的技术专家Avinash Kaushik 曾说：

“大多数互联网产品都很糟糕，因为 HiPPO 创造了它们。”

Netflix在2016年4月的一篇技术博客中写道：

“通过对照测试的方法，我们确保产品变更不是由最固执己见，和最有发言权的Netflix高管驱动，而是由实际的在线数据驱动，这是我们走向成功的基础。”

有人会问：A/B测试的决策思想其实由来已久，为什么直到现在才变得流行起来？

答案是实验成本。

在硬件产品时代，产品的开发成本很高，一台电脑如果控制不同变量，事实上它就变成两台不同的电脑，本质上属于两条产品线，而开发多条产品线对于硬件产品的成本是非常高的。

软件产品时代开发成本同样高昂，一个版本的Windows要开发数年，一个3A大作开发同样动辄数年，这样庞大的开发成本是无法同时进行不同版本的开发的。

同时，无论是硬件产品还是软件产品，它们从开发、上市到客户反馈，这个周期是极其漫长的，这样冗长的周期也让灵活多变的A/B测试难以大规模应用。

而到了互联网时代，每一个产品特性都可以快速迭代，每一次迭代都能迅速得到反馈。

开发成本的降低和反馈周期的缩短，这两重因素无疑给A/B测试提供了极其便利的实践条件。

为了让A/B测试的价值得到更大发挥，很多互联网巨头还将这项能力开放给C端用户。

比如今日头条发布文章的界面，作者可以取双标题和双封面，经过小流量的测试之后，推荐系统会自动推荐点击率高的标题。

Facebook的广告系统也给广告主提供了一项组合实验能力，即客户可以上传不同的标题、描述、封面和按钮。

Facebook自动对这些元素进行随机组合，形成多个创意进行A/B测试，自动将预算分配到转化率最高的创意组合上。

为什么今天传统的“广告大师”越来越少了？

因为互联网广告在很大程度上不再依靠“大师”的灵光乍现，而是更多地依靠优化师每天测试无数版文案和素材，甚至很多文案是机器生成的。

四、如何利用工具做好A/B测试？

我们在上面的部分了解了A/B测试的原理和意义，很多公司会问：我知道在增长日益困难的今天，A/B测试是一个好东西，那到底应该如何付诸实践呢？

的确，A/B测试的实践并不是一个简单的过程，它比很多人想象得要困难，这个困难体现在几个层面：

首先，需要确定A/B测试的关键环节。

A/B测试到底测什么的问题，即企业必须清楚哪些环节是推动业务发展的关键，在关键环节上进行试验。

如果找不到关键环节，在无关痛痒的环节上，无论做多少A/B测试也是徒劳的。

其次，需要确保A/B测试过程的科学性和合理性。

比如控制单一变量，即确保实验组和对照组只有一个关键变量是存在差异的；

比如确保流量分配的均匀随机，即实验组和对照组的流量是完全独立的，不存在互相影响的关系。

最后，还需要确定合适的评价指标。

评价指标通常不止一个，是看A指标还是B指标？过程指标还是结果指标？短期指标还是长期指标？单个指标还是多重指标？这些都需要根据业务实际情况审慎决定。

所以，A/B测试并不是一件容易的事。要充分解决以上问题，对于企业而言，开发一套完整的实验系统是其中的一个方案，但这通常需要较高的开发成本。

另一种方式是使用成熟的第三方测试工具。

比如字节跳动就将其内部的A/B测试技术能力，通过其旗下的To B品牌“火山引擎”统一对外开放。

2014年，字节开始推动A/B测试的平台化，2016年正式建立A/B测试平台Libra。

运行至今，Libra已经在字节的多个产品线验证了有效性，同时经过多年迭代，在实用性、易用性、灵活性等层面都得到了充分验证。

火山引擎的A/B测试具体适用于哪些场景？主要有以下几个：

个性化推送实验：在运营场景下支持APP个性化推送试验，比较不同组推送效果。
可视化建站实验：无需代码，运营人员就可以直接在页面上修改文案等元素进行试验。
多链接网页实验：在需要转跳网页的场景下，可以把流量打到不同的着陆页上去对比评估效果。
客户端和服务端编程实验：从前端的交互、功能迭代到后端的策略和模型优化，支持灰度发布。

火山引擎的A/B测试可以灵活支持获客、留存、转化、传播等各个环节的测试工作。比如说：

获客阶段，可以看哪个文案更适合；
转化阶段，可以看哪个算法效果更好；
传播阶段，可以看哪个互动效果更佳。

悟空租车就使用火山引擎的A/B测试，对整个租车流程进行了对照实验。实验的出发点是想减轻用户对押金的压迫感，提升转化率。

悟空租车原有的流程是租金和押金在同一个页面支付，用户支付时心理成本较大，于是产品经理设计了一个新方案：延迟支付押金，即先付租金再付押金。

但悟空租车不知道新方案是否奏效，于是就做了小流量的A/B测试。

很显然，新方案页面的流程更长，在直观体验上增加了用户的操作成本，然而结果显示，新方案的整体转化率提升了7%。

这就是A/B测试的意义。

据我观察，字节跳动对A/B测试的确有着非常深刻的理解，同时通过内部的历练和打磨，系统在同类产品中也的确最为成熟，可以切实为企业解决问题。

正如亚马逊将本来给自己内部使用的云服务开放出去一样，字节跳动也希望将自己有价值的能力对外开放。

这种开放是一种增量，既是自己技术能力的变现，也能通过市场验证反哺团队的技术水平。

五、总结

A/B测试作为一种科学的实验手段，能够帮助企业在多种方案中寻求最优解，以最小的风险前置性地验证策略效果，为企业规避风险。

作为互联网时代的企业，理性拥抱前沿趋势永远是最优的选择。

#作者#

卫夕，微信公众号：卫夕指北（ID：weixizhibei），2018年年度作者。一名兴趣广泛的广告产品经理，致力于用简单语言深度剖析互联网相关的逻辑。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！

标签：产品设计产品经理 A/B 测试初级产品经理

上一篇 > 结合《决胜B端》，谈谈民微方案设计
下一篇 > 想提高效率？看看这些提升设计效率的技巧！

Axure原型案例实战分享：如何改造后台产品架构及如何迭代更新升级现有的产品？

产品经理先考虑清楚这些问题，再开始一段属于自己的创业旅程

如何在压力山大的产品经理生活中调节情绪

如何给需求排优先级？

产品思维

产品经理：如何“化零散需求”为“高效解决方案”？

产品经理如何做需求分析？这 8 个步骤一学就会！

业务场景梳理，产品经理必备的技能点

从产品新人到项目owner

不懂技术的产品经理，如何让 AI 码农帮敲代码？

产品经理的面试技巧，简历要点，并从四个方面拆解面试重点

【跨界奇谈1】韩立版“精益创业”案例分析

产品艺术性的思考

不会要账的产品经理，不是好的谈判员

产品经理与项目经理到底有什么区别？该怎么选？

产品小白不迷路01：我适合做产品经理吗？

物联网对传统互联网产品经理的影响

优秀的产品经理应该具备什么样的思维方式？

产品经理的职业深度进阶：策略性思考与领导力提升

产品经理方法论连载03 | 产品通识——产品经理的岗位分类

面试产品经理时，如何回答有关创新和产品方法论的问题