数据图表中的细节——让你的图表“既能用又好看”
俗话说,细节决定成败。在数据图表的制作中,此话尤其应验。图表的制作,首先是逻辑清晰,即要表达的主题明确,且图表中的信息是按一定的逻辑关系进行组合的。其次是精确传达信息,即保证图表中数值的准确度,并保证展示的精度。接着是调整展示的细节,让图表从“能用”向“既能用又好看”过度。通过学习本文的内容,希望能帮助大家把图表做得“既能用又好看”。
1 图表背景和绘图区背景
从埃森哲、尼尔森、波士顿咨询等咨询公司的报告中可以发现他们对图表的背景有所处理,而不单单只是白色。图表背景的加工,有助于视觉信息的传达。
如图1所示为笔者初入职场时采用的图表风格。当时使用的是Excel2003或者Excel 2007。这样的作图方式得到了领导的赏识,因为这显然不是Excel的默认格式,是用心设置了一些细节后才会出现的效果。
图1 笔者进入职场时的作图风格
虽然不敢说这个图表有多高明,但是它通过两个背景色的应用,将文字信息和折线图突显出来。要做出如图1所示的标题版式,需要先删除Excel图表形成的默认标题,然后在“插入”选项卡中找到“文本框”,单击“插入横排文本框”选项,在文本框中输入文字,并设置好字号和字体颜色。然后鼠标右键单击文本框,单击“设置对象格式”选项后设置文本框的填充色,如图2所示。
图2 设置文本框的背景填充
对于绘图区背景色,设置也非常简单,鼠标右键单击绘图区,单击“设置绘图区格式”选项,然后在右侧弹出的设置面板中选择填充色,如图3所示。
图3 设置绘图区背景色
在右侧弹出的设置面板中有许多参数可以设置。我们仅介绍了“纯色填充”,还有渐变填充、图像或纹理填充、图片填充等。本书并不是Excel的帮助文档,所以不会每个参数都介绍,需要读者去钻研。值得一提的是,在有些公司,图表背景需要加水印,那么“图片或纹理填充”这个按钮就派上用场了。先将有水印的图片保存在计算机中,然后通过这个功能添加到图表的背景中,如图4所示。
图4 设置绘图区水印
设计图表背景是一件有趣的事情,有点像画画,每个人都可以将自己的情绪表达出来。以笔者的经验,如果业务进展顺利,大家心情都很愉悦,而且研究报告的内容是向好的,那么采用清凉明快的图表背景比较合适;如果业务进展遇到了一些问题,需要大家严肃对待,认真仔细地思考,那么厚重的色彩会在情绪上形成有效的引导。如图5和图6所示,笔者走了两个极端,一个是白底,一个是黑底,同样的数据,相信给人的感知是不一样的。黑红蓝配色让人觉得紧张,黄绿白配色让人觉得轻松。
需要提醒读者,如果没有十足的把握,不要随意调整背景颜色。实际上,现在笔者也很少在图表背景上动脑筋,毕竟不是设计师,已不愿承受为了美观而不断修改的痛楚。因此,笔者的图表都采用不会犯错的白色背景。
图5 清亮的图表背景
图6 厚重的图表背景
如果读者非常想让自己的图表多姿多彩却又不使配色俗气丑陋,笔者有一个偏方,那就是先下载一个取色软件,然后搜索一些世界绘画名家的作品,用取色器取出这些作品中的色彩(RGB色彩编码),最后在Excel的填充选项的“自定义颜色”中应用这些色彩,如图7所示。
图7 自定义色彩
2. 坐标轴
横坐标轴和纵坐标轴,别看它在图表中占位面积小,可它却是一个数据图表必不可少的元素。坐标轴的参数非常多,笔者认为最核心的是图8中圈出的这个部分,即坐标轴选项、刻度线和数字。
图8 坐标轴设置
在“坐标轴选项”这个板块中,我们对最大值和最小值的操作非常频繁。如果每次作图都不细心设置,就不能称为一个合格的数据分析师。这里的最大值和最小值决定了坐标轴可丈量的数据范围。
图9中的两幅图实际上是相同的指标,只是因为坐标轴选项里的最大值和最小值设置的区别导致了完全不同的观感。根据上面的图反映出的活跃率,我们得出的信息非常有限,仅仅是活跃率维持在88%左右,没有波动;而下方的图得出的结论与此完全不同,不仅活跃率波动剧烈,而且经历过一波爬升和震荡后,开始有了上升的势头。那么,哪幅图是正确的呢?
图9 坐标轴的范围
第一幅图的做法显然是错误,因为坐标轴范围过大,掩盖了应该突显的信息。第二幅图能够反映波动情况,但它的坐标轴范围未必正确。以笔者的经验,坐标轴是否合理的判断条件有两个。
(1)它是否展现出了足够的差别。
(2)它的范围是否大于数据序列的4倍标准差。首先,要确保坐标轴范围设置好,能够看到数据点之间有明显的差别;这一条件保证了我们需要捕获的信息都已经呈现。其次,要判断是不是做得太细了,导致一些微小的干扰性的波动也被放大,就要看看设置的坐标轴范围是否大于4倍序列的标准差(在Excel中,需要使用STDEV.P()这个函数计算)。在上述例子中,序列的4倍标准差是2.8%,那么我们设置5%的坐标轴范围是比较合适的。
横纵两个坐标轴是否必须出现在图中?答案是否定的,尤其是纵坐标轴,我们经常会将其隐藏,转而用数据标签代替。如图10所示,我们将纵坐标轴隐藏后,其实不影响图中信息的传达。那么,什么情况下可以选择将纵坐标轴去掉呢?以笔者的经验,归纳起来有以下几种情况。
(1)图中需要精确描述数字,这种情况往往出现在柱形图和条形图中。
(2)图中呈现的数据都由主坐标轴标度,没有次坐标轴。
(3)在横坐标上列出的项目较少。
还需要提醒的一点是,网格线的出现与否,往往是与纵坐标轴同步的。网格线的存在意义,实质上是为了方便将图中的图形的位置与纵坐标轴所标出的数值进行映射。因此,若纵坐标轴不存在,网格线也没有存在的必要。
图10 隐藏纵坐标轴
3 灵活使用辅助线
在这部分我们将较详细地讨论辅助线的应用。笔者将辅助线大致分为三类。
(1)趋势线,即帮助你判断数据变动趋势的辅助线。
(2)信息增强线,即能够突出数值间隐藏信息的辅助线,如涨跌线、垂直线和误差线等。
(3)标注线,即将某些外部信息或抽象信息标注进图表中的辅助线,如均值线、置信区间等。
我们从趋势线开始讲起。所谓趋势,即反映了某种演进关系,最典型的就是时间序列。在时间序列的折线图中,笔者往往会添加趋势线,即使最终趋势线没有在图表中呈现,也会在作图时添加,用来帮助自己判断趋势。
能选择的趋势线有指数、线性、多项式、幂、移动平均、对数一共6项,如图11所示。在日常工作中,用得最多的应该是线性和移动平均两项。我们针对这两种趋势线详细说明它们的使用场景。
图11 添加趋势线
4 线性趋势线的应用
线性趋势线实质上就是一条一元一次的线性回归方程。它衡量了两组数据间的线性关系,即“随着一个变量的增长,另一个变量怎么变?”或者“某组数值变动一个单位,另一组数字相应地变动多少?”。回归的含义和应用会在后面章节中更详细地讨论。
线性趋势线往往能代替Excel中的回归功能,既然是回归,线性趋势线也就不仅应用在时间序列中。举个例子,我们看一下川术公司每日的用户活跃度和用户活跃率有什么样的线性关系。我们选中趋势线,然后单击“线性”选项,将下方参数中的“显示公式”和“显示R平方值”选上,如图12所示,就完成了一个用户活跃度对应于用户活跃率的线性回归。切记,用于回归的数据集需要按作为自变量的用户活跃度进行升序排列,这样得到的结果才能回答“随着用户活跃率的增长,活跃用户数怎么变化?”。
图12 设置线性趋势线的公式和R平方
如图13所示,公式显示y=984.98x+561944,_x_即活跃率,_y_即活跃用户数,这是否意味着活跃率变化1个单位,活跃用户数就能变化985个单位呢?如果单看这个回归公式,答案是肯定的。但为了避免犯低级错误,做回归时一定要看R平方值是否足够大。一般情况下,只有在R平方值大于0.6时,才认为这个回归公式是有意义的。R平方值代表了回归公式对现实数据的可解释度。在本例中,R平方值是0.0184,也就是说,这两组数据间的关系只有1.8%的信息可由该回归公式解释。
图13 线性趋势线回归的应用
为什么要举这个例子呢?因为笔者发现在实际工作中,有些数据工笔者对回归并不理解,盲目应用得出荒唐的结论,其他伙伴也缺乏相关知识而使得低级错误不断放大。我们举的这个例子,其根源其实并不仅是R平方值过低,不能应用,挑选这两个指标来做回归本身就有非常大的问题。这两个指标量级差了100万倍,变动幅度的量级也差了100万,虽然没有明文规定量级差距过大的指标不能放在回归模型中,但以笔者的经验,这样的变量组合很难得出有效的结论。更进一步,在我们要对变量做回归前,首先要看看这两个变量的关系是否有现实意义,避免进行“伪回归”。其次,先计算两个变量的相关系数,若相关系数过低,两个变量间建立回归关系就没有意义。在本例中,活跃用户数量和用户活跃率的相关系数仅为0.12,几乎不相关,没有必要建立回归。
关于线性趋势线还有一点需要补充,即“线性预测趋势线”。如图14所示,当你使用“趋势预测”选项后,可以根据回归公式对未来和过去进行预测,图形上的趋势线会向前或者向后延伸一段距离,帮助读者做预测的判断。该功能的使用前提相信大家都知道,就是回归公式的R平方足够大。除了这一点,还有一个关键点,在专门讲回归的章节我们会再提起。
图14 线性预测趋势线
5 应用移动平均趋势线做时间序列的预测
类似预测趋势变化这样的需求在实际业务中非常常见。如图15所示,我们经常用移动平均趋势估计未来。
图15 移动平均趋势线
何谓移动平均?用文字表述为:在时间序列数据中,_N_期移动平均就是以当期值为终点,计算过去_N_个值的算术平均数。例如,一个序列A(1,2,3,4,5)有5个数字,我们要计算它的3期移动平均,必须从第3个数字开始,才能计算出一个平均数;A的3期移动平均数是(2,3,4)。移动平均的计算会有两个限制:一是序列长度必须大于移动平均计算的期数;二是计算_N_期移动平均,那么移动平均的结果序列就会比原序列缩短N-1个数字。
移动平均的意义是什么?这才是我们最该关心的问题。它的意义是预测趋势。移动平均的理论基础与线性回归完全不同,线性回归的预测是通过变量间的关系实现的,而移动平均的预测是通过序列本身的信息实现的。我们可以这样理解,经历了移动平均过程后,序列中不可预测的随机波动因素和周期变动因素被滤去了,剩下的就是可预知的长期趋势。
在本书的后续章节中,会针对时间序列分解模型进行讨论,读者会领会到更多移动平均的价值。在Excel中,只要在趋势线设置中选择“移动平均”,确定好移动平均的周期,即可做出图形。需要多提一句的就是“周期”的设置。移动平均的周期,需要与现实业务的涨跌周期一致才能有效地滤出长期趋势。若你的产品是2C端的,那么你的业务很可能存在周末高,工作日低的周期变动,这时移动平均的周期就需要按7或者7的倍数进行设置,如图16所示。
图16 移动平均趋势线
6 添加信息增强线
我们以涨跌柱线为例来说明信息增强线的作用。涨跌柱线的制作过程并不复杂,在“图表工具”中单击“添加图表元素”选项,然后选择“涨/跌柱线”选项即可,如图17所示。它的应用前提是“图表中的两个指标必须能计算差值,且这个差值是有现实意义的”。如本例中,川术公司的月度销售目标和实际销售额,它们的差值就有实际意义。
用两种颜色分别表示涨和跌,如图18所示。涨跌柱一旦使用,图表的观察者会将注意力集中在涨跌上,基于这个属性,作图时要谨慎思考,是两个指标之间的差值重要,还是两个指标自身的数值更重要。笔者在实际业务中很少使用涨跌柱线,除非需要“讲故事”,要尤其突出“涨”或者尤其突出“跌”。这是一个加工数据的技巧。
图17 涨跌柱线的制作
图18 涨跌柱线的应用
——本文选自《数据化运营速成手册》,由电子工业出版社投稿
编辑推荐
- 本书适读人群:互联网公司的数据分析师、运营人员、产品经理,以及中层管理人员。
- 掌握基础图表的高级特性
- 梳理数据化运营的基本方法、原则、思维模式
- 深度量化分析方法(朴素贝叶斯模型、假设检验、方差分析、回归分析、时间序列分析模型等)
- 帮助你科学地决策
内容提要
《数据化运营速成手册》用于提升互联网公司员工的数据应用能力,即数据化运营能力。首先,从最常用的数据图表切入,帮助执行层正确地绘图,管理层正确地看图;接着,梳理运营中最基本的数据应用知识,涉及数据获取、数据清洗、数据认知、分析框架、指标体系、运营实验等内容。然后,介绍作者认为必要的统计学知识,包括假设检验、方差分析、回归分析和时间序列分解,并引入了管理科学中的规划求解方法。最后,介绍了数据分析工具的发展趋势,并分享了作者近些年的工作及学习心得。
《数据化运营速成手册》适用于互联网公司的数据分析师、运营人员、产品经理和中层管理人员。
来源:afenxi.com
关键字:数据, 产品经理
版权声明
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!