新手向:如何从数据到行为
作者结合个人的数据工作经历,初步整理了一些如何让数据最终能够指导业务优化的思路,欢迎交流。
一、鸡生蛋还是蛋生鸡——数据指标与数据源
由数据源确定数据分析指标还是由数据分析需求树立数据指标,开发数据源以获取对应的数据?理论上是后者,不能被已有的数据范围所限制,应当以业务目标和数据分析目的产生数据需求,再由需求对照需要那些数据作为支持。
但也要考虑数据获取的客观条件。实际情况中,往往受当前技术所限,一些数据尽管粗在分析需求,但数据短期内无法实现采集。这时候可能就需要考虑转换数据分析的思路,适当选择绕道而行。
顺带一提,使用数据的时候,需要对于数据的准确性进行核验。一些时候,如果要使用的数据源被证明足够可靠,经过验证或者已经被使用成熟,我们可以跳过对于数据源的核验或者稍加核验,对数据进行使用。
但如果数据的获取不稳定(常见于监控性质的数据,涉及数据的采集、数据的存储等,这里面大有说法),明确数据误差的来源,以及误差的可接受度。
例如获取机房的服务器数量,数据就是相对可信的,接口被广泛运用。但涉及到带宽、监控、流量之类的,往往就要挖掘到数据源那一侧,包括数据是怎么采集的、存储方法等。
例如在带宽利用率的数据中,当时的技术条件是:每5分钟就会采集一个数据点,但是超过七天之后,数据点只会每天保留一个。这样,对于每天精确的带宽利用变化趋势数据图表就无法实现了。这种就是数据影响到功能的情况。
再例如,算机房流量,可以通过计算每台机器的网卡流量并求和,也可以直接取出口交换机的流量数据,后者相对更精确,因为前者会包含了机房内机器之间互相通信的数据流量。
但是在统计机房内某个业务的流量占比的这个场景下,只能采用第一种算法,第二种算法中交换机无法区分业务的流量,而且该业务之间的数据传输不大,可以忽略误差,因此可以采用第一种误差较大的方法。
二、由心率到心电图再到诊断书——数据的下钻,数据能够指导业务的优化,而不是仅仅显示一个状态
就像心率和心电图一样,心率仅仅能够显示状态,非常简单地判断健康状况,心率高一些也只能说明心脏跳得快一些。但是如果进行一些下钻,心率随时间的搏动情况,就可以判断一些问题,例如心率不齐等、再进行下钻,心电图的层面,就能够发现更多的问题了,例如癫痫之类的。
数据也是如此。我们有很多描述状态的大颗粒度数据。但是能够提供的信息却非常单薄。这种是不利于问题的发现以及业务的优化的。也是初级发展阶段的数据分析环境普遍存在的一个问题。
但是辩证来看,并不是所有数据都有下钻成心电图的必要,就像我们的手环,只要能够提供心率即可,不必要展示到心电图的程度,而我们生病或者体检的时候才会需要心电图。有些数据,我们只需要获取大致的状态即可,不必非要执着于刨根问底。
说到底,其实还是根据数据的消费需求来看,是需要详细的拆分的细颗粒度数据,还是只需要粗颗粒度的,感知大致状态的数据即可。
三、从诊断书到治疗方案——对于有需要的数据,将数据与真实的业务优化、业务行为结合起来
数据到现实业务是一个无限接近的过程,我们希望得到的就是能够最大程度上地直接作用于业务决策或者业务行为。
当然这里面也有一个度在里面,数据不可能无限精细,这样就会造成大量的数据冗余,最好能够“点到为止”。
例如在提供机器年限、过保相关的数据时,我选择将最精细的数据提供到单个机器的编号为止,并设计了导出功能(理论上做跳转功能会更加直接,但是评估后没做),用户在点击过保机器的数据后,可以详细得到具体有哪些机器过保,并可以下载机器型号,方便他们后续进行进一步的操作。
本文作者 @星若雨
版权声明
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!