如何进行合理的运营测试?

我的运营策略是否有效?活动规则是否合理?这些问题抛给数据分析师,让他们从数据库中去扒信息回答你,其实是值得画问号的。最合理的方式就是做测试,或者说『对比实验』。通过测试中落下来的数据,才能形成合理的判断。

撰写本文的目的在于,从最近我团队所尝试的若干个运营测试中,抽象出一套更普适的方法论,帮助大家更『聪明的』做运营。

运营测试的步骤

我将运营测试的执行步骤概括为下图。我将有选择地对图中的各个步骤进行讲解。

运营测试步骤详解

我将运营测试过程分为『问题』、『过程』、『传达』三个步骤。我们测试来源于业务问题的提取,测试过程贯穿着统计学的思想和方法,测试结果需要有效地传达给别人;只有这三个环节都完成,才能称为一个完整的运营测试。

产生问题

毫无疑问,问题一定来源于业务。我们测试的目的就是找到解决业务问题的有效方案。因此在产生问题这个环节,我们需要去调研各种各样的业务困难,然后针对不同的困难先想出大致可执行的方案。所谓的『产生问题』中的『问题』,其实是『这个方案有效吗?』这样的『是/否』问题。

我个人是倾向于将业务问题都不断地拆解,最终转化为『是/否』问题。这样的二元问题,可以比较容易量化。

利用ICE方法评估方案

ICE方法告诉我们,评估方案的可测试性,或者说测试的优先顺序,需要从Impact(影响面的大小)、confidence(提出者对执行效果的信心)、easy(执行的难易度)三个角度来评估。每一项都进行0-10分整数打分,三项得分求和后,得分最高的方案先进行测试。影响面即我们的测试方案能多大面积地影响我们的用户。影响面越大,分数越高。提出者对于测试成功的信心越足,则confidence这一项得分越高。对于执行的难易度,我们需要从是否需要产研参与?是否需要外部条件?需要多少金钱花费?需要多少时间?等角度考虑,执行难度越低,得分越高。

ICE方法为我们提供了一种思路。不过目前我所经历的测试并没有参考这个方法进行打分评估。以后需要往这个方向进行优化。

设计指标

指标是运营目的的量化。通俗得说,我们的方案实施后,解决了某个问题,那么就要从我们设计的指标上能反映出来。重要的是,指标要对问题的改善敏感(信度和效度都要好)。因此我们不能机械地盯着几项KPI指标。针对测试,需要找到更敏感更细节的指标。当然,若KPI指标能够胜任,再好不过了。

准备工具

明确的计划+自动化的运营工具+人工的操作方法+人员配备+资金预算+合适的时间+风险控制=准备工具。

选择对象

首先,实验对象一定是我们能操纵的事物。可能是我们的客户,也可能是某种资源。目前,我们给力的产研团队已经提供了灵活的segment工具,因此我们可以针对用户进行圈群组的方式,来选择实验对象。

随机分组

这点在实验过程中万分重要,若没有随机分组的保证,后续所有的步骤和结论都将不可靠。如何实施呢?我们圈选了我们的实验对象后,要将他们随机地分到实验组和对照组。在大家熟悉的Excel中,可以使用RAND()函数给每个用户生成一个随机数,然后按这个随机数排序,排序后取出前一半人作为实验组,后一般人作为对照组。

我们实验的目的是量化某个运营动作带来的效果。通过随机分组,给实验组施加这个运营动作,对照组不施予任何动作;然后对比实验组与对照组在实验指标上的变化,进而形成判断。这样的横向对比,效果是好于时间维度的纵向对比的。前提是实验组与对照组在除了『是否施予运营动作』之外的其他条件上都是相同的。而随机抽样就是对这种一致性的保证。

DID方法

我这里用一个图来说清楚DID,即双重差分测量法。

运营实验必然会在时间上有一个跨度。所以有人就会挑战:在时间变化后,实验组和对照组的数据可比性如何保证呢?答案就是应用DID。通过如上图的一个双重差分过程,我们就可以将两个组在时间维度上的指标变化剔除掉。

上图中的表格,大家去填满了,即完成了DID方法的过程。我们需要在两个时间段(测试前和测试实施后),计算两个群体(实验组和对照组)的一个指标(用户购买率),这样就先有了表哥中左上部分的4个数字。由这4个数字,我们能算出4个差值,最后,竖排两个差值相减和横排两个差值相减,结果一样,都是我们右下角的DID值。这个就是双重差分法的实施过程,右下角的这个『0.25%』,就是我们对实验效果的量化值。

需要补充一点,观察实验组合对照组在测试实施前的数值差距,我们可以判断随机分组是不是有效。若两者差距很大,说明我们分组的随机性很值得怀疑,需要重新分组。合理的随机性分组应该使得这两个数字差距不太大。但这种做法在统计学上是不严谨的,这里面水有点深,暂时不展开讨论。

假设检验

实验中的假设检验方法引申为方差分析方法。这部分我觉得暂时不掌握没关系,因为方差分析的适用条件比较苛刻,对统计学理论的要求也比较高。大家把DID用好之后,我会另外撰文介绍。

形成结论

这部分主要从DID数值中来。主观的说,DID数值若能占到测试实施前数值的5%以上,我们 有充足的理由去判断实验方案是有效。

传达部分

传达部分我觉得不需要多费唇舌,流程图中的文字表述足够大家理解。需要强调的是:做完了测试,不管测试方案是否有效,一定要落地成规范的文档。因为无效也是有价值的经验,别人读了之后,也许可以少走弯路,或者在不同的场景中尝试一样的方法,可能就奏效了。

End.

作者:胡晨川 (中国统计网特邀认证作者)

来源:微信公众号川术

关键字:产品运营, 测试

版权声明

本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部