数据分析篇｜基于推断统计学，把握问题核心洞悉数据模式与趋势

2017-12-27 10:19:00

Hi，各位看官老爷们好~，在前两篇《数据分析-初识数据埋点(一)》、《数据分析-初识数据埋点(二)》中已经对实战应用中的数据埋点的基础认知、基本分类、定义规范、流程以及详细的应用场景与大家做了全面的讨论，第三篇也就是本篇将在数据埋点的基础之上深入讨论后续数据分析中的一些问题，达到真正的把握客观数据核心的目的！

经过产品经理详细且周密的埋点准备工作以及产品线上各个环节童鞋的齐心协力，需求以及埋点方案终于上线啦。部分看官认为上线了即代表大头的活都完成了，实际上，上线后才是埋点刚刚开始收集数据的开端，这才刚刚开始~
收集了数据紧接着面临的问题就是怎么分析才是最精准的、严谨的？理想情况下从埋点上线那一刻起一直到产品退市，取全量所有时间点的数据进行分析时，数据才最准确。那在实际工作中也要用此方法吗？显然不行~
其次相信大家在日常工作中或多或少都听说过以下的问题：
场景一：某产品的需求上线后，隔了一天，从后台取出埋点数据一看，效果很好，有大量的用户在使用这个功能。并且推动了转化率的提升，最终提升了核心指标。安奈不住心中的喜悦，拿着一天的数据去跟领导汇报，结果却被领导大骂一场~~
场景二：产品需求A（详情页X功能优化）刚上线3天，还没有分析需求A所涉及的所有主要评估埋点，以及辅助评估埋点，以及后续的流程，紧接着在同一个页面：详情页上线需求Y。领导得知此事后，然后、然后产品经理被领导叫去喝茶了…
场景三：某产品经理说，自己负责的产品已经处于产品生命周期的中后期了，不求快速迭代增长，只求稳定，减缓数据下跌速度。需求少，几个月都没有一个需求上线。等上线需求以及埋点方案后，我等上3个月，3个月时间够长！数据一定具备代表性，一定能反应客观真相。领导得知此事后，大家懂得，产品经理被领导叫去喝茶了…
在不同的场景中各产品经理是因为什么原因导致被请喝茶呢，下面做下初步的问题拆解：

场景一中显然取数的周期太短，样本数据不具备代表性，不能代表整体趋势。例如：新上线的功能，用户趋于好奇去点了下，看看好用不好用，怎么用，而不是需求驱动的功能使用。
场景二不仅3天的数据周期并不具备代表性不能代表整体趋势。而且在X功能没有输出分析结论的前提下在同一个页面上线需求Y。带来的结果就是无论数据涨跌，都无法产出分析结论，X功能与Y功能相互影响，无法判定数据涨跌的原因。最坏的结果就是：虽然X功能导致数据下降，但是由于判断两个功能之间的影响关系，只能一刀切，两个功能一起下线。
场景三虽然取数的周期足够长，但是由于外部因素影响，也可能使数据有偏移客观事实的趋向。例如在二手车行业，大的节日，不同的月份，以及新车发布会等等外部事件都会对产品数据的波动产生较大的影响。
问题汇总：
上线后数据取几天才能进行推断分析？为什么几天的局部样本数据能代表整体？
同一份数据，不同的人给出了不同的结论？怎么把握了问题的核心抓住数据的趋势？

带着疑问，与大家一起利用统计学上的理论与方法进入今天的正文，帮我们找到真相！

在数据统计中研究现象的总体数量关系时，需要了解的总体对象的范围往往是很大的，有时甚至是无限的，而由于各项目进度、时间和精力等各种原因，以致有时在客观上只能从中观察部分数据或有限数据进行计算和分析，根据局部观察结果来推断总体。
并且根据局部观察结果来推断总体时，其中把握局部问题的核心才是当务之急。从一大堆数字中看出模式和趋势可能颇为不易，而求出平均数往往是把握全局的第一步。有了平均数就能迅速找出数据中最具代表性的数值，得出重要结论，在本篇中将与大家讨论几种方法，帮助计算最重要的统计量—均值、中位数，基于以上有效的汇总数据，达到得出简练、有用的结果的目的。
为什么几天的局部样本数据能代表整体趋势？首当其冲则需要用到的就是统计学上的辛钦大数定律，讨论定律前首先需要了解以下名词：
相互独立：独立就是每次抽样之间是没有关系的,不会相互影响。
例如：本汪抛一枚骰子，第一次抛骰子的结果是1点，第二次抛骰子的结果是6点，第一次投中1点的结果并不影响第二次投中6点的结果，互不影响，相互独立。
同分布：同样例如本汪抛骰子，每次投中任意点数的概率均为1/6,这就是同分布的。
意味着变量和变量之间具有相同的分布形状和相同的分布参数，对离散随机变量具有相同的分布律，对连续随机变量具有相同的概率密度函数
独立同分布：在概率统计理论中，指随机过程中，任何时刻的取值都为随机变量，如果这些随机变量服从同一分布，并且互相独立，那么这些随机变量是独立同分布。独立同分布最早应用于统计学，随着科学的发展，独立同分布已经应用数据挖掘，信号处理等不同的领域。
均值：为了求出一批数字的均值，我们会将这些数字加起来，然后除以这些数字的个数。均值是应用最广泛的统计量之一。由于使用如此频繁，统计师专门给了他一个符号：μ。这是一个希腊字母（读作“谬”）。记住这只是表示均值的一种简介方法。
数学期望E（X）：通俗一点，各位看官老爷可以理解为我们生活中说的平均值（在统计学上叫均值μ，不过当前为了便于通俗，可暂理解为E（X）=平均值，后面涉及数学期望E（X）时会单独展开讨论）。
基于以上名词解释后，下面介绍关键的辛钦大数定律：
设X1,X2，…是相互独立，服从同一分布的随机变量序列。且具有数学期望E（Xk）=μ.(k=1,2,…)。作前N个变量的算数平均

注释：读作“西格玛”各位看官老爷可以理解为“将所有的变量加起来的意思”
上图中即代表，K从1到N所有变量加起来/n
则对于任意ε>0,有

公式的证明过程此处不再展开。
上图即代表当外面lim下面的N趋近于无穷大前置条件下，K从1到N所有变量加起来/n
的结果减去平均值μ取绝对值后的结果小于任意大于0的变量的概率为1。
对于独立同分布且具有相同均值μ的随机变量X1，X2，…XN,当N很大时，他们的算数平均数

很接近于μ，由此推导出以下结论：可以用样本的均值去估计总体均值。
所以，综上所述，利用得出的结论，基于业务和实际样本情况评估数据埋点时，我们就可以用每个埋点局部样本数据推断总体趋势，这样看似基于直观的经验得出的结论便具备了数学意义的理论支撑。
其中样本数据在取数时在尽可能保证其他因素变量不变的前置条件下，取1周~2周之间的数据作为样本进行数据评估为宜。最好是1周后取一次查看数据表现并形成初步结论，2周后再取一次数据查看数据表现与第一周的数据在趋势上是否吻合，是否存在较大的波动进行双重验证，并输出分析结论，如2份数据差异较大，则有必要详解的向下拆解，并持续重点关注数据变化~
本例中基于二手车行业产品，以及工作经验给出1~2周的数据周期作为参考，各位看官可根据实际情况以及样本数据的波动情况以及是否稳定来动态变化取数周期，灵活应对。
经过以上数据周期后，假设我们获得以下数据，如图所示：

名词解释：
均值：可能以前有人让你算过平均数，计算数据的平均数的一个方法是：将所有数字加起来然后除以数字的个数，在统计学中，这样算出来的值叫做均值。
可能各位看官会问，我已经习惯了叫平均数了，这样叫有什么不妥吗？
且听我慢慢道来，因为在统计学上平均数不止一种，我们必须知道如何分别称呼每一种平均数，才能方便的告诉别人你所说的是哪一种平均数，避免产生歧义，就像我们去买果汁，在果汁店要告诉售货员要哪种果汁？苹果汁？西瓜汁？还是梨汁？考虑到这一点，最好是明确指定所用的是哪一种平均数的计算方法。
首先介绍均值：为了求出一批数字的均值，我们会将这些数字加起来，然后除以这些数字的个数。均值是应用最广泛的统计量之一。由于使用如此频繁，统计师专门给了他一个符号：μ。这是一个希腊字母（读作“谬”）。记住这只是表示均值的一种简介方法。

频数：在计算一批数据的均值时，我们常常会发现有些数字是重复的。例如上图中有三天的数据都是100。
有一点确实很重要：在计算均值的时候，要把每个数的频数考虑进去，为了确保不忽视这一点，我们可以把它写入公式，用f代表频数，就可以重新将均值表示如下：

这是表示均值的另一种方法，但这次明确指出了频数，用这个方法计算的数据，得出：

然后我们得出初步结论：X按钮的典型值μ等于627，每天有627的点击量！
此时可能部分看官提出了挑战，任务这个典型值是错误的，因为没有一个值等于或者近似于679.9这个典型值。
哪里出现了问题？
我们需要查看数据，探明究竟，让我们看看，绘制一个数据表格，看能否有助于帮助我们找到问题所在。

并绘制成直方图如下：

通过直方图看出点击量形成了对称的形状，很容易看出点击量的典型值。大部分的点击量都在100上下，有2个值远远超过100，分别是3000和3002，像这样的极值被称作异常值。
通过直方图可以看出，样本中存在3000和3002这两个异常值，那如果去除这两个异常值，均值会是多少？与实际的均值进行对比会得出异常值的影响是什么？
观察数据的表格与直方图，很容易看出点击量在99.7左右，如果表格中不包含那2个异常值的话，99.7就是均值。这2个异常值扭曲了均值，使均值抬高了。一旦发生了这种情况，我们就说数据偏斜了。
偏斜的原因是异常值处于均值的右边，我们称这种情况为向右偏斜。
向右偏斜的数据有一条“尾巴”，这条尾巴由偏大异常值形成，偏大异常值扭曲了均值，使均值拉高了—即拉向了右边。

同理，以下图为例解释“向左偏斜”，下图中近似出的数据分布曲线向左偏斜了，表明存在异常值（极小值），这些异常值较低把均值拉向了左边。在这种情况下，均值小于大部分值。

在理想情况下，我们会希望看到通过直方图近似出来的曲线为呈对称形态。如果数据对称，则均值位于中央。不会有任何异常值将均值拉向任何一侧，中央位置两侧的数据形态大致相同。如下图所示：

中位数：
当偏斜数据和异常值使均值产生误导时，我们就需要用其他方式表示典型值。“中位数”闪亮登场，我们可以取中间值，这种做法是可行的，中间值其实就是另一种平均数，统计学上称为中位数。
为了求出点击量的中位数，首先将点击量升序排列，取出中间数，如下所示：

如果各位看官在计算时，数量为偶数的话，则只要将两个中间数加起来，再除以2,即可，结果就是中位数。此处不再展开讨论。
大多数场景下，我们会使用均值，因为均值的优势远胜于中位数，均值对于抽样数据来说更稳定，但是如上文所述，均值也有缺点，当样本数据中存在异常值时，均值会被异常值带偏，在这样的场景下则可以使用中位数来表示典型值，因为中位数总是稳稳的站在样本数据的中间。此外除了我们讨论的均值、中位数外，还有一个平均数：众数，适用于一个样本数据中存在两种类型的数据时使用，因为在统计埋点时均为一类一类的统计，不存在众数的应用场景，所以此处不再展开。

总结

基于统计学上辛钦大数定律：可以用样本的平均值去估计总体平均值，作为理论基础，解决了为什么能利用局部数据代表整体趋势的问题，其次解释了局部样本数据取数周期的逻辑，为各位看官在自己实际工作中灵活取样本数据的数据周期提供一些思路。并进一步通过利用统计学上均值与中位数找到样本数据的典型值方法，解决在一份样本数据中如何把握问题的核心抓住数据的趋势的问题，防止因异常值的影响对数据做出错误解读，使数据真正客观真实的反应趋势，进而解决业务问题，创造价值。
下篇预告：
通过前两篇涉及埋点的讨论加上本篇中对基于推断统计学把握问题核心洞悉数据模式与趋势的深入讨论，默认各位看官从定义埋点到埋点数据分析把握客观数据已经轻车熟路了，(＾－＾)V
下篇将与各位看官一起，创造一个新的阶段性法宝“流量地图”。
帮助各位看官在实际工作中把控整体产品的健康状态，及时发现产品问题以及可优化点，调整迭代计划，创造用户价值，进而达到提升产品的核心指标的目的！！！
最后一句：以上我说的都是错的，只有适合你的才是正确的！
再加一句：各位看官，如果您觉的本文对您有帮助，记得给个赞哦，(* ￣3)谢谢啦。

数据分析篇｜基于推断统计学，把握问题核心洞悉数据模式与趋势

总结

相关阅读

相关文章