从电影中看:探索性数据分析思维应用
在电影《东方快车谋杀案》中,神探波洛利用探索性分析的思维方式完美破案,而在日常工作中,我们也可以利用该思维解决难题。
现在已经进入DT时代,海量、混乱的数据不断涌来,我们需要理清头绪,探寻数据间的内在联系,这就好像侦探办案,虽然人们总形容侦探“目光犀利、嗅觉敏锐”,似乎侦探是条犬科动物。然而侦探本人通常不会仅仅靠着自己的眼睛和鼻子办事儿。
她的做法看起来科学得多——将所有能够搞到的证据搜集到一起,所有能拿到的数据拿到手里,然后在其中寻找规律。
在《东方快车谋杀案》中,波洛侦探完美地为我们演示了一遍如何收集证据与数据,然后从中获得洞察。在一个下着雪的深夜,一个男人离奇而死。没有目击证人,身上的刀疤参差不齐,就连宿在附近车厢的侦探本人也没有在惨案发生时发现端倪。
不过,就像在旅途中也要保持得体装扮一样,波洛侦探面临谜题,表现得同样有条不紊。
首先,他挨个盘问了列车上的每一位乘客,不管对方人设是冷静缜密、还是神经兮兮。然后,他将这些人的语言与行为如拼拼图一般,拼在了一起,并理出了一个时间线。在这个过程中,他不断地思考:
- 哪些信息能支持自己的假设?
- 哪些信息互相矛盾?
- 我还需要回答什么问题?
- 还有——之后我需要做什么,才能回答这些问题?
“想来你对我这种询问方式很不以为然。”波洛侦探对玛丽说:“你原来想的不是这种,而是英国式的。凡事都该准备停当——摆出事实,按部就班。可是小姐,我这人倒有点儿与众不同。 首先我得先见见证人,摸清他或她的脾性,然后再相应地提出问题来 。”
波洛列出的问题足足有10条:
- 绣着首字母H的手帕,是谁的?
- 烟斗通条,是谁的?
- 谁穿鲜红色、绣着龙的睡衣?
- 谁把自己伪装成列车员,男人还是女人?
- 为什么死者的表针会指到一点一刻?
- 谋杀发生在那个时间吗?
- 还是在那个时间之前?
- 或是之后?
- 能确信杀手不止一个人吗?
- 死者身上的刀伤还有其它解释吗?
这些是否也是你的疑问?或者说,在听过各位乘客的回答后,你是否也产生了一些疑问?如果答案是“yes”,恭喜你,你已经在做探索性分析了!
EDA——探索性数据分析
探索性数据分析(EDA)是数据分析过程的第一部分。 在这个阶段有几件重要的事情要做,但归结起来就是:
弄清楚数据是什么;
建立你想问的问题以及如何表达它们,
提出最好的展示和操作数据的方式,以得出重要的见解。
EDA 与 IDA 的区别:
探索性数据分析有别于初始性数据分析 (initial data analysis – IDA)。初始性数据分析 的聚焦点是分析鉴别统计模型和科研假设测试所需的条件是否达到,以保证验证性分析的可靠性。在这个分析过程中对不符合条件的数据进行缺值填补、数据转换、异常值舍弃等处理以增强分析的准确性。
探索性数据分析 包含初始性数据分析,但它的出发点不仅是确定数据质量,而且更重视从数据中发现数据分布的模式(Patten)和提出新的假设。
你在 探索 – 寻找线索 。 就像波洛做的那样,通过定量和可视化的方法,你不仅梳理出趋势和模式,还能发现偏离模型,离群值和意想不到的结果——它们也很重要。 你现在发现的东西将帮助你决定提出的问题,研究领域,以及下一步采取的措施。
一切发现 符合假设的、不符合假设的,都是为了最后一步一步地走向真相
过去,在以抽样统计为主导的传统统计学中,探索性数据分析对验证性数据分析有着支持和辅助的作用。但由于抽样和问卷都是事先设计好的,对数据的探索性分析是有限的。到了大数据时代,海量数据从多种渠道源源不断地涌现出来,已不受分析模型和研究假设的限制,如何从中找出规律、并产生分析模型和研究假设成为新挑战。
这时候,探索性数据分析在对数据进行概括性描述、发现变量之间的相关性以及引导出新的假设方面大显身手。正如美国探索性数据分析创始人约翰•怀尔德杜克所说:
面对那些我们坚信存在或不存在的事物时,‘探索性数据分析’代表了一种态度,一种方法手段的灵活性,更代表了人们寻求真相的强烈愿望。
CDA——验证性数据分析
通常,侦探结案并不是故事的结束,还需要将罪犯以及罪证交给法庭,进行审判。
我们将这个“审判”的过程称为验证性数据分析。
验证性数据分析是您使用传统统计工具(例如显著性,推断和置信度)来评估证据的部分。
在这一点上,你真的在挑战你的假设。验证性数据分析的很大一部分就是对事物进行量化,比如,你所建立的模型的任何偏离都可能偶然发生,在什么时候需要开始质疑你的模型呢?
CDA 的内容:
测试假设,以特定精确度产生估计,回归分析和方差分析。
验证性和探索性数据分析的使用
实际上,探索性的和验证性的数据分析不是一个接一个地进行,而是不断地交织在一起,帮助您创建最好的分(破)析(案)模(套)型(路)。
我们举一个例子来说明实践中的EDA与CDA。
场景:最近几个月,流失用户的数量一直在激增。产品一直在保持更新,性能也算稳定,活动也没停,这种流失简直称得上是一桩密室丢人案了。究竟发生了什么?
发现问题:密室丢人案,比密室杀人案更让运营感到棘手的案件
你开始利用数据探索原因(EDA)。你调取了这些流失用户的所有数据然后开始寻找线索。在用了各种饼柱线气泡树从不同角度分析了数据之后,你发现丢失的用户大多都是在同一个月内注册的。
锁定异常:虽然每个月注册的用户都有流失,但很容易看出7月的问题
经过仔细调查,你发现在这个月中,虽然产品一直在保持更新,性能也算稳定,活动也没停,但是你们自己却把常用的CRM系统给换了。结果,一部分客户没有收到产品的入门教程。
现在你产生了一个大(合)胆(理)的假设:这些人是因为没有得到入门教程而流失的。要想停止这个死亡游戏,必须连夜派发入门教程大礼包!
但首先,你需要确定这个原因是正确的。根据探索性数据分析,你现在可以建立一个新的预测模型,以比较收到教程和没收到教程的差异率。 这根植于验证性数据分析。
结果显示了两者之间的广泛相关性。成功破案了!
探索性数据分析和大数据
21世纪的作案团伙可以像水滴融入大海一样藏身于庞大的数据池中。整个侦探游戏变得非常艰巨。要保证自己能够实时访问所有需要的信息,让数据跑得跟思路一样快,让案子破的时候“凶手”还没跑远——这对于销售、运营、产品、财务、HR等各种工作模块都至关重要。
为什么侦探小说这么火?
因为我们都需要知道答案,并对探索答案过程中的智力挑战而感到惊心动魄。
那为什么,不让数据侦探成为你的“第二人格”?
作者 @数据观 。
关键字:数据思维, 探索性, 数据, 分析
版权声明
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!