数据报表:怎么让你的图表好看?这里有最重要的一条经验
编者按:这是一篇介绍如何制作图表的文章,作者是Amazon战略规划部的第一位分析师Eugene Wei(后来还担任过Flipboard、Hulu的产品负责人,Oculus的视频负责人),原文标题叫做《Remove the legend to become one》,意思是删掉图例成为传奇,因为在英语里面legend有图例和传奇的意思。简单来说,这篇文章介绍了一段经历,一套经验和一本宝书。是一篇告诉我们如何制作出好看的图表,更重要的是如何通过知识追求真相的非常实用的文章。
第一部分:经历
我的第一份工作是在Amazon.com开始的,在战略规划部当第一名分析师,接手做Analytics Package的工作。特意大写是因为这既是一项严肃的工具能让我们的业务明晰,也是因为其月复一月的制作工作统治了我整整1年多的生活。
1997年那时候,分析甚至还不是一个真正的词。我知道是因为试过找术语,希望弄清楚我要做的东西,但却找不到,字典里没有,互联网上也没有。回想起你刚开始成规模地使用互联网之时,一般搜索引擎返回的结果数之少,你就会意识到自己已经老了。那时候智慧还隐藏在新闻组,Yahoo还要靠手工去组织web目录,而很多的Google搜索返回结果寥寥无几。那时候如果俄罗斯人想要干涉选举的话,他们可能会植入一些故事到rec.arts.comics里面然后挑拨几个极客,但也就只能这样了。
尽管找不到那词的定义,但是猜它是什么并不难。分析的某种名词形式。不仅如此,Analytics Package本身已经不言自明。真的。它会附带一页纸的附言,总是有一段简短的序言阐明目的,然后再跳到一段内附信息的文字摘要,形式跟论文摘要差不多,或者一封致股东信。我想贝索斯多年后创立的著名的公司政策,也就是支持写文章禁止PPT的做法,也许在那时候的Analytics Package附言那里找到一些起源。它们的启发是一样的:如果你没法用书面语言解释清楚某个东西的话,你自己是不是已经真正理解了呢?
我的面试流程最后一环用了1个小时,面试官是当时招聘的负责人Ryan Sawyer。经历了几乎包括所有资深高管以及贝索斯和Joy Covey等我这辈子预见的最出色的人的重重挑战之后,我以为最后这一道免不了的HR面试关不过是走走形式罢了。但那时候Ryan让我用他能够理解的方式解释一个我能理解的最复杂的东西。权当是给我的工作热热身。
Analytics Package都包含有什么,以至于需要书面解释?图表,一页页的图表,有关Amazon业务方方面面的图表。收入、时评、营销、运营、客服、人员编制、G&A、客户感知、市场渗透率、客户生命周期价值、存货周转率。通常一页纸4张图,横向布局。
Package这个词似乎有点累赘,如果Analytics本身是名词的话。但如果你见过其中一个的话,你就会知道它为什么叫做Package。1997年我到Amazon时,Analytics Package大概是30到50页纸的图表。1年后,我转做产品管理时,它已经膨胀到100页了,此外我还在做一份有关客户订单趋势的不行报告。Analytics也许是指可交付的分析或者分析的实践,但Analytics Package在分量上就像电话簿,或者Restoration Hardware五金公司的目录。
那时候公司还没有把精力集中到开发内部仪表盘和分析工具上面,所以Analytics Package是用我们今天标准看来根本不入流的东西做的。我手工把数据录入Excel表,生成图表,调整布局,然后再打印成册。
这整件事最糟糕的部分之一是搞正确页码。Analytics Package背后是整整一个目录的链接电子表格。由于不同的图表来自不同的工作簿,我必须把整个Analytics Package都打印出来,排好序,然后再通过某个晦涩的打印设置菜单手工插入页码。总之,确保分页按照预期就像是拆除炸弹一样。
时至今日,公司都是平板电视挂在墙上,24/7不间断地展示着各种图表。其中大多数都不为人所关注。随时保持透明度的主旨没有错,但对人性的理解不是。我们无视那些随时可见的东西。然而,如果一个月一次把一大摞图表扔到你桌面,再加上概括结果的一封附言,并且如果CEO和你的同事都会在同一天收到同一份报告,同事报告里面该包含有你那部分业务的运营情况的话,你一定会留意的,就像任何人都会注意看一本有关自己公司的书的索引有没有提到自己一样。仪式很重要。
报告会发给全公司的资深经理。一开始资深的定义是根据职级,但就像职场大部分事情的走势一样,谁又被增加到分发表里面变成了一个月度竞争的来源。有人可能怀疑这是我的想法,因为分发表是我来制订的,但其实我关心这个是因为每个月我都得打印和复印纸质版。
现在我已经很少使用复印机了,但那一年我使用的次数,比我之前和之后所有日子加起来的使用次数都要多,所以我可以相当自信地说这些机器是人类有史以来制造的最不牢靠的机器之一。
这是一场游戏,其唯一的目标是减少痛苦。一百份一百页的文档。机器复印到一定时候就会坏掉。过了一段时间就会卡纸。墨盒会没墨了。你一次愿意冒险复印多少份?太少你得再次重复设置过程。太多可能会有中间出错的风险,而这又会演变成一系列更为复杂的任务,比如只复印剩下还没复印的然后跟之前已经完成的合并。(如果你在想我为什么要手工插入页码的话,这不仅是为了方便引用特定图表,也是为了在复印机坏掉时找出哪一份资料的哪一页缺失了)
当然你也可以在清理卡纸之后恢复打印,但实际上这从来都没有见效过。以后我知道了,像这种量级的卡纸实际上是复印机永远也无法恢复的。
我变成了精通总部所有复印机情况的大师。我知道哪些复印机能够承担这一繁重的任务,了解每一台的可靠程度。对每一台机器可靠性的波动情况,使用情况以及上一次维修时间都了如指掌。由于我通常每天都加班到很晚,我会把大规模的复印任务留到最后,因为那时候整栋大楼的复印机都可以供我差遣。
有时候我光听复印机内部的复印鼓和引擎声就能觉察要卡纸了。有问题的机器会呼哧呼哧作响,就像烟鬼一样,有时候我会在复印机为我服务时把手放在机器上,就像医者把手放在病人身上一样。我会自称为复印机私语者,不过当我处理它们时总是会连声咒骂,从来没有窃窃过。后来在分析师任期末时,我得到一笔预算去招个临时工帮我完成每个月的打印工作,因为都忍受过那种永远也做不完的劳力之苦,我们至今仍有联系。
我的另一个痛苦来源是另一个工具的极度脆弱性:Excel 97的链接表格。直到今天我仍然是Excel的拥趸,Excel是微软Office套件最棒的工具了,而且如果你从事的是严肃的工作的话,仍然是地球上最顶级的电子表格工具。然而,我永远也无法忘记Excel 97的链接工作簿噩梦,一个理论上似乎很有前景的想法但实际工作起来却完全不是一回事。
为什么不干脆做到一个巨大的工作簿里面去呢?不同的部门必须针对不同的图表提交数据,那时候让多个人同时处理同一份Excel表格简直就是一团糟。找出谁的变更卡住了,整个比较的过程,这些都是难以为继的。所以我给不同的部门都建立了Excel工作簿。其中一些数据我会自己收集手工输入,而有的部门有年轻一点的员工,也有时间和资金去输入和维护自己组织的数据。
哪怕是这个过程很多地方也会出错。当我试图竖起护栏保留链接所有工作簿的公式时,从单元格保护到字体加粗到条件格式标明可编辑单元格等等,到了一般用户手里之后就没有一个电子表格可以幸存的。有人会在这里插入一行,那里插入一列或者误删了一个公式。某月,一个用户可能会改了一个工作表的名字,或者按季度增加此前从未出现过的摘要列。突然之间一堆的# ERROR出现在各个地方的单元格上,或者如果你不走运的话,数字还在,但却是错误的而你并没有意识到。
因此每个月有一部分时间都是用来检查每一张电子表格以及修补出问题的链接和指针,重新建立图表已经丢失的表格链接,或者更阴险的隐患,那些表格链接对了但表格区域链接错误的情况。
但哪怕这些都做完了,有时候表格计算也会出问题。这是注定的。电子表格的原理就是这样,唯一的错误只能是用户错误。我的主工作簿的一个单元格会指向另一个工作簿的单元格。它们的值应该是一致的。但是,当我打开两个工作簿时,一个现实1345另一个却显示1298。强制所有单元格重算的按键是F9。我已经反复按了。有时候重算能行。有时候不行。有时候我会试一下Ctrl – Alt – Shift – F9。有时候我只能祈祷。
我工作中唯一哭过一次,那是在一天很晚的时候,我妈刚刚因癌症去世了,我左腿又因为刚做了ACL/MCL疝气手术打了石膏,当我无法理解为什么我的工作簿核不平,有那么一刻我的意志力崩溃了,决定投降了。这不是循环引用,这个我知道只要我穷究下去是可以解决的,或者至少如果是工作簿内的循环引用的话是最终还是可以解决的。不,Excel 97链接工作簿这个固有的脆弱是一个不信神的程序里面的一个随机缺陷,我的感觉仿佛自己就是整个宇宙当中最遭天谴的那个倒霉蛋。
我想要离开办公室,但是我太累了拄着拐杖走不了太远。那个时候周围已经没有一个人。我把计算机和灯都关了,一头趴在在桌子上,直到那一刻缓了过去。然后我重启计算机,打开两个工作簿,然后看着有问题的两个单元格。它们还是不一致。我按了一下F9。这次匹配了。
大多数时候,在深夜我完成了所有Analytics Package的复印,然后用小,然后是中,最后是大的装订夹把材料夹到一起时,我会把大部分的复印册捧在手上,一册册放到每一位接收人的办公桌上。从我的办公桌出发到一个个办公室串门是一次受欢迎的休息,也许可以停下来跟某位还在熬夜的同事聊上几句。我感觉就像是个按照固定路线送报的,而且往往都在同一个时间起床。
尽管Analytics Package留给了我那么多痛苦回忆,但我仍视之为我职业生涯当中对我影响极大的经历之一。在做报告的过程中,我感觉我们企业的整个组织都摆在了我的面前,它的复杂性和内在工作变得一目了然。同样地,我想象程序员把数据表变成3D图表的数据可视化流程,我能够跟踪从客户想买书到一美元是如何在我们企业内部流动的整个过程。我清楚每一位员工的薪水,从分销商到我们仓库,从货架到传送带,然后打包,搬上运输车,我清楚每一笔订单的时间成本。我能够像职业赌徒算牌一样预测出每100订单会有百分之多少的客户向我们投诉,并且其中有百分之多少属于哪一类型的问题。
我知道,如果我们每月能获得一位客户的话,下个月有多少他的家人朋友会通过口口相传成为新客户。我知道如果1998年1月100客户完成了第一笔订单的话,其中会有多少比例的人2月、3月、等等还会再次下单,以及每一笔订单的平均金额是多少。随着我们的发展,以及随着我们影响力的提升,我可以看出跟出版商和分销商谈判更长的应付周转天数对我们现金流的影响,也能看到每次我谈成了更好的列表价折扣之后我们的毛利都会逐步攀升。
生活在高频交易和正态分布的领域,一个大数定律占主导的领域是多么舒服啊!每个月观察人们购书(以及后来的CD和DVD)的一致性和可预测性就像是在显微镜底下识别自然界的一些晶体结构一样。我不羡慕Snapchat或者Twitter或者Pinterest这样的公司,上市或有朝一日可能上市的社交网络,或者那些从事社交网络业务的公司,当他们的网络那么大但仍然那么的不稳定(收入流就更加了)时他们得设法管理好投资者的期望。社交网络的指数性增长当然很有趣,但如果你是Twitter每个季度都要努力向投资者解释为什么你又没有达到目标时就很无趣了,当你要假装知道一个季度后收入情况会怎样,且不说2、3个季度后的情况时,事情就没那么有趣了。
在Amazon,我能够卡出我们下个月甚至更远的未来的收入是多少,误差只有几个百分点的精度。唯一需要做出的决定是我们打算告诉华尔街我们的预测数字是多少。那时候,我们总是低估我们的收入(underpromise),因为我们知道结果会超出预期(overdeliver),唯一的问题是我们应该预测多少收入并且仍然在下一次财报会上给大家带来惊喜,并且这种惊喜是可靠的。
我们对自身业务的了解深度继续超过了我服务过的任何公司。这很大程度上要归功于贝索斯对详细程度的要求。没人能像最高领导人那样对责任设定标准。大部分功劳要算到Joy和我的经理Keith头上,是他们让Analytics Package成为了战略规划部门最核心的任务之一。Keith把我推给了Tufte改变了一切。还有更大的功劳属于所有那些帮助收集业务各方面晦涩难懂的数据的人,那些负责本部门相关职责的同事,其中很多人都针对自身领域建立了自己的模型,并定期对其进行维护和更新,因为他们知道每个月我都会过来敲门给他们出难题。
我相信这一点,因为Joy跟几乎每一条块的运营者一样了解我们业务的每一部分或者甚至更加了解,她是少有的几个既能防守又能主动出击的CFO之一。我见过的几乎每一位CFO做法都是老一套;总是严厉控制开支,采取财务保守主义,对任何大胆的财务事项投以怀疑的眼光。这些Joy做得可以比下一任更好,但在位时她会敦促我们多花点钱,其热忱不输贝索斯。就像许多有梦想的CEO一样,她知道有时候最好的防御就是进攻,尤其是在赢家通吃、先发优势和网络效应统治的互联网市场。
我对有那么多的公司不去帮助自己的员工理解自身业务的数字作业仍然感到惊讶。新员工也许进行过入职培训,了解了一些公司文化,出差政策,供应柜在哪里,也许还对使命宣言进行了一些讨论。当然,这些都很有价值。但入职指导上一次展示公司的任何图表是什么时候了?我们是不信任员工的计算能力吗?还是害怕这种激进的透明度会让他们不堪重负?后者也许这是一种控制机制,某种“你那点脑力就别关心这些数字了”专心解决好自己的问题就行了的态度?
光知道数字还不够,但就像《点球成金》这样的书解释清楚那样,这么做会揭示出隐藏的真相,价值的未知向量(比如Billy Beane和Oakland A的例子里面就是上垒率)。直至今天,大家还经常说Amazon这么多年都没法实现盈利,好像这是个庞氏骗局一样。1997年的一个深夜,也就是我刚到公司几天之后,当时我大概通读了最新一期Analytics Package有3、4遍,我知道了我们的隐藏真相:所有关于Amazon无利润商业模式的说法都是谎言。我们利润如果不用于对公司的再投资,我们从投资者融到的钱如果不用在对那些投资追加投资的话,其行为无异于自残。唯一制约我们潜能的是我们的抱负有多大。
第二部分:经验
这跟曲线图有什么关系?我入职1、2个月后,我的经理让我去参加一个正好在西雅图举办的讲座。这是整整一天的课程,内容围绕着一本书的智慧展开,而且是作者主讲。这本书叫做 《The Visual Display of Quantitative Information(量化信息的可视化展示)》 ,是Amazon.com上一本超级畅销书,在Amazon之前的时代,属于长尾那种类型的书,也许仍然是一些小众的参考书,书的作者是Edward Tufte。要我马上列出自己读过的最重要的书单是很难的,但这本是其中之一。
我的经理让我参加讲座为的是我能把那本书里面的原则应用到Analytics Package的图表里面。我的那本书还放在我家里的书架上,这是我向工作同事推荐得最多的一本书。
本文啰啰嗦嗦了这么多还没有进入正题,Tufte的书正好相反,它开篇就简要总结了自己的关键原则。
卓越的统计图表应该能够清晰、精确、有效地表示复杂想法。图形展示应该:
- 展示数据
- 诱导观看者思考实质而不是方法论、图形设计、图形制作的技术或者其他
- 避免扭曲数据必须说明的东西
- 在很小的空间内呈现很多数字
- 大型数据集要保持一致
- 鼓励用可视化的手段去比较不同的数据片段
- 从概况到详细结构(或者望远镜+显微镜),以不同的详细程度揭示数据
- 要有相当明确的用途:描述、探究、制表还是装饰?
- 要跟数据集的统计和口头描述紧密结合
图形揭示数据。真的,图形可以比常见的统计计算更精确更有启迪作用。
就这些。书的剩余部分就是这些第一原则的出色详述。整个世界就一页纸。
在所有的图形里面,曲线图是最棒的。而在所有的形式里面,最标志性的,也是我在Analytics Package里面使用最多的一种,就是以时间为x轴,以要衡量的维度为y轴的那种曲线图。数据按时间的发展趋势。
一个数据点是一个数据点。两个数据点随时间的变化趋势就能说明一个故事了。(开玩笑的,请不要只用两个数据点来讲故事)图表上面的线条告诉我们曾经到过哪里,也会指明事情朝哪个方向发展。在当你对着曲线苦思冥想为什么上面的数据点会上升或者下降,或者为什么那么平时,就能掌握要研究的东西的基本机制。
我制作了好几个月的Analytics Package图表之后经理才授权我来写附言。这是一个重要的日子,但写业务状况摘要这件事其实并不难。看着每一张图表研究为什么它跟上个月不一样以及怎么不一样,我得到了写东西所需的所有关键点。做图表已经成功了一大半。
所以Tufte那本书里面的很多原则都落实到了Analytics Package里面。比方说,只要有关,每一页都会显示一系列的折线图(small multiples),X轴和Y轴一样的尺度,那时候折线图在电子表格程序还不成气候。
Tufte的影响力没有一个地方能比我们的曲线图体现得深。曲线图能好到哪里去呢?毕竟,在所有东西里面,曲线图真的非常简单。但这是优势,不是劣势。这里的建议很简单,实际上简单到那你可能会以为这全都是惯例。不是的。当我看到网上分享的曲线图时,哪怕是来自我关注的最聪明的人的,几乎都不怎么遵守我要提供的建议。
也许Tufte还不够出名,他的想法并没有在商学院这样需要学生使用Excel的院校里面得到传授。这么说也没错,但我更愿意用一个更简单的解释:用户太懒,Excel曲线图默认就是糟糕的,而Excel是地球上最流行的制图工具。
为了用实例来说明,下面我们就拿一个数据集在Excel里面做一张曲线图,然后把我每个月制作Analytics Package需要做的事情走一遍。
网上共享的大部分图表我都找不到原始数据,我又不想使用任何的专有数据。不过我的朋友Dan Wang 告诉我可以去Google Public Data Explorer上面找,其中有很多似乎是从World Bank Data Catalog抓取的,我从中提取了一些裸数据,以便节省时间。
我使用人均医疗保健支出(单位美元)。我选出8个国家并且选取覆盖1995到2014所有年份的数据。我选取的都是我生活过或者访问过的国家,有的则是别人跟我提到过他们的医疗保健体系,但此处的重点是,要想让图表易读,限制曲线图中的数据系列很重要。数据系列多少才合适要取决于那你想要研究什么,曲线点的集中程度如何,以及数据的差距有多大。有时候除非你把图先做出来否则很难预计,但可以这么说,如果结果难以辨别的话,你做的图表只会让别人觉得自己傻。
下面就是当我框选数据(非常奇怪的是,我发现推荐图表下拉按钮和它推荐的3种图表是柱状图,这绝对不是合适选择,Excel很多地方的默认逻辑也都很糟糕)按下曲线图按钮之后我的Mac机上的最新版Excel做出来的图表。这张图我没有做任何修改,只是直接保存下来,尺寸和格式都是Excel选择的。
不好。按照Nudge的Richard Thaler和Cass Sunstein的哲学,我们只需要改进了一下Excel和PowerPoint的默认设置,全世界的图表出色程度都会有极大改进。如果有人在做Excel和PowerPoint的图表功能的话,请听听我的呼声!提升普通人的制图水平的权力就把握在你的手上。请读读Tufte的原则吧。
顺便说一句,听完Tufte的讲座后,我走过去问他书里面的图表是用什么软件制作的。他怎么回答?Adobe Illustrator。为了得到他想要的结果,他,我猜还有他的助理,完全是靠手工布置每一个像素的。这对我制作Analytics Package的帮助不太大,因为我每个月都得做,而且还有其他事情要干,但对Excel制图品质的吐槽即便在今天也仍然成立。
现在我们对上面那张图表稍微编辑一下,就像我以前制作Analytics Package一样。我们先从一些很明显的问题开始:
- 图例几乎跟图表一样高
- 很多线条相互之间靠得太近了
- 左列的数字加千分号的好可读性会更强
- 图表需要一个标题
我把工作表内的图表扩大了一点让它更容易看清,出于某种原因大小大概是4张邮票那么大,这样就解决了上面的问题。下面就是修改版。
Excel应该默认给千位添加逗号分隔符。上面这张图效果多少好点了,但是标签仍然很小,即便点击上面的图片并且放大到最大。不过,除了调整标签和标题大小以外,我们还可以做哪些事情来改进一下呢?
我写这篇文章的目的其实就想说一点,是提升你的Excel曲线图的最简单的办法:
(1)把图例去掉
如果你的余生只能记住一件事的话,光是这一点就能让你的图表好很多了,整整一代的观众都会感激你。
图例的问题是它会让用户反复把目光在图例和图表之间来回切换,因为要设法用短时记忆记住某种颜色代码体系。
看看上面这张图。每次我都要看哪一条线是哪一个国家,我必须先看看下面的图例再看看上面的图表。如果我决定对任何两个数据系列进行比较,我必须看下面记住两种颜色,然后再看回图表。且不说要比较3个国家或者全部了,但后者正是做这张曲线图的目的。因为要迫使观看者解释你的图例,你的曲线图已经限制了图很多的解释效率了。
如果你只有两个数据系列,图例还不算什么,但效果仍然不如去掉图例。当然,光是去掉图例还不够。
(2)去掉图例并且直接在曲线上标记数据系列
不幸的是,这因此也让你的工作变难了,因为,令人难以置信的是,Excel竟然没有在图表中对数据系列进行标记的选项。唯一的自动化选项是利用图例。
如果我错了的话,我会对我的错误感到高兴,请向我指出来,但我已经尝试过Excel的每一个图表菜单,也就是右键点击图表不同的热点,但我还是找不到选项。Excel强迫你点击太多隐晦的热点来唤起各种选项已经够糟糕的了。但是在所有那堆没用的选项之中你却还是找不到这个选项是在是很滑稽。
唯一的解决办法是手工创建数据系列标签。你可以在Excel菜单、功能栏的某个地方找到插入文本框这个选项,所以我会给每个数据系列创建一个文本框然后大概放到合适的位置这样就知道哪一个数据系列是哪个了。接下来,关键时刻到了。
选择图例,然后把它删掉。
撤销,然后再删一次,这只是为了感受一下图表填补了图例被删掉后留下的白区那种一下子变大的感觉。感觉很好。
接下来,选择图表的图形区然后扩大图表右侧的部分边缘来缩小图形区,好留出位置给你的标签。由于大家习惯从左到右阅读时间序列,并且由于最近的数据位于最右端,你会希望你的标签在右侧,而观看者的眼睛会自然地这么转。
现在还不用把标签移到确切的位置。先调整数据标签的尺寸以及图表的比例。不幸的是,由于这些文本框非固定的也不是附着在数据系列上的,每次你的图表比例变化之后,你都得手工重新调整所有数据标签的位置。所以这一步留到最后再做。
我之前还没有用过这个最新版,图表选项似乎比过去更加复杂了。为了改变x轴和y轴的标签格式,你可以右键点击每一条轴然后选择设置坐标轴格式。我把y轴的文本格式改为货币。但为了改变每一轴的标签大小,你得右键点击每一条轴然后选择字体。这些设置在不同的菜单下是Excel体验的一部分。
在扩大x轴字体大小时,我发现文字太挤了,所以我把显示刻度调整成了每2年。然后把所有数据序列标签进行左对齐,接着用肉眼尽可能精确地调整好y方向位置。我好像记得Excel以前时允许选定文本框然后用方向键可以按像素移动的,但我试过不行,说不定你可能得在什么地方找到对象调整的下拉菜单然后选择左对齐所有的标签。
下面就是图表的下一个迭代版本。
你可以点击图表放大点看。现在我们已经得到一个比Excel自动生成的图表好很多的版本了。如果这个就是Excel的默认效果的话,我已经相当满意了。但仍有改进空间。
颜色的使用本来是很有帮助的,尤其是当曲线之间很挤的时候,但如果有人是色盲怎么办?如果我们一定要采用这种配色方案的话,我可以把数据系列标签的颜色也调整成跟相应曲线一直。但再次地,既然标签是手工添加的,你也得手动改变每一个标签的颜色来跟Excel选定的配色方案一致,哈有这还是不能解决色盲的浏览者的问题。(为了举例来做这个我就没有耐心了,但你可以看看让标签颜色跟曲线颜色匹配有何帮助如果你是在Google Data Explorer看这个数据的话)
在《The Visual Display of Quantitative Information》中,Tufte用的颜色很少。在制作Analytics Package时,我手头只有黑白打印机和复印机可用,所以哪怕它为你的图表增加了一个维度,颜色也是白费心机。
尽管颜色有优点,可以更容易分辨很靠近的两条不同的曲线,但这样会引入各种很难预计的心理联想可能反而容易造成干扰。比方说,在制作美国总统大选的图表时,用蓝色代表民主党,用红色表示共和党是个好主意,因为这种配色方案已经受到广泛认同。但在分辨你公司的不同部门,或者产品线时,随意的颜色选择会成为噪声,或者更糟,会引起争执。
不管你最后交付的版本是不是能够显示颜色,更安全的替代方案是采用不同的线型。是否显示颜色要取决于你需要入图的数据系列的多寡。我会查看数据序列曲线的格式选项,在这个版本的Excel里面被标记为Dash Type(划线),我发现总共有8个选项,正好够用到我的例子上。分配选项来尽量提高易读性需要一些工作;你应该根据相邻的对比度最大的原则来选择哪个国家使用哪种线型。
在随机选择了线型之后,单色版的曲线图变成这个样子。
对于色盲用户来说没有问题,但我们这种对线型的使用也已经超出了我能够忍受的程度。对我来说,用带颜色的曲线跟踪不同的国家的变化趋势会更容易点,尽管这个单色版也不算糟糕。尽管如此,这张图表在很多方面都让我想起了我以前做的Amazon Analytics Package单色版的样子,虽然没有数据标签(这里用不合适)并且还有水平网格线(我从来都不这么做)。
我们之所以要进行这些取舍是因为数据系列的绝对数量。8个序列不但是足够,而且是太多了。舍弃部分数据序列之后,往往更容易更明晰地把这些当作一系列的折线图来展示。这完全取决于目标以及你想要沟通什么。
到了一定时候,任何一套原则都不会放诸四海皆准,作为沟通者你必须做出一些主观判断。比方说,在Amazon,只要能展示出来的话,我知道Joy希望在图表上看到数据值。 她是那种非常注重细节的人。一旦我把数据值放上去了,网格线就变成累赘了,而y轴也可以相应减少数字了。
Tufte建议减少非数据墨水(non-data-ink,跟数据无关的展示),网格线往往就属于这种。在某些情况下,如果数据值没有办法放到图表里面的话,我有时候会网格线放进去好方便计算一个值与另一个值的相对比例(数一下值之间的网格线数量即可),但这是特殊情况。
对于突变情况,比如一条曲线图的异常逆转,我往往会在图表上直接插入备注,为的是预测和防止任何的观看者提出问题。比方说,在上面的图表里,如果数据序列减少但希腊仍保留,你可能会希望解释一下从2008年开始医疗保健支出为什么会出现下降,办法是在那个地方加一条备注说明这是希腊金融危机爆发的时间(我不知道这是不是实际的原因,但不管原因和理论是什么,我会列上去)。
如果在特定指标上我们有公司目标,我会以带标签渐近线的形式把目标附到相应图表上面。提醒大家关注目标永远都不嫌多。
作为举例,下面是那张图表的另一个版本,数据序列减少了,带上数据标签,没有网格线,更少的y轴标签。此外,由于曲线没有堆在一起,我们不再需要不同的线型,避免了增加视觉噪声。
以那种数据规模,数据值是不容易辨认的,但如果我要给Joy或者贝索斯制作图表的话,我一定会增加标签因为我知道他们需要那种详细程度。而且在Amazon,我一般会限制我们的图表不能跨越4或8个季度,所以在我们从来都没有像上面这张图表那么多的数据点。再次地,到了一定时候你得自己决定你的受众是谁,你的目标是什么,然后相应修改你的图表。
就像一部电影一样,制图是一个连续过程。出于不同的目的上面的图表我可以生成更多的迭代版本,但你了解意思就行了。到了一定时候你总得打印出来。就像你要在片尾致谢一样,这里的最后一步是在图表下方把数据来源放上去,这样大家就可以自己去找裸数据了。
在为了这篇文章准备这个例子之前,其实我对全球人均医疗保健支出是没有什么了解的,除了知道美国的支出大幅领先全球以外。这张图表揭示了这一点,而且说明了差距的量级。比方说拿中国来比较一下。中国的低支出该作何解释?我可能可以猜到几个原因,包括一些明显的,比如庞大的人口基数,但这需要更深入的调查,可能还需要更多的图表。Analytics Package慢慢膨胀的原因之一是一些图表会引出更多的图表。
为什么从2008年年开始希腊的人均医疗保健支出会下降?是因为金融危机吗?为什么日本从2012年开始会扭转上升趋势?我们是不是应该把其他一些国家放进来进行比较,我们怎么才能选出最能说明问题的数据集?
我在Amazon的第一年里,每个月我大部分不睡觉的时间都是用来收集数字并确认其准确度,制作这些图表,然后在设法拼凑出这些曲线背后的故事。制作曲线图的过程是理解的序曲。
为了加速这种理解,再升级一下你的曲线图,让它变得有效、真实。赢有一些广泛适用的原则来指导你。简单总结一下:
- 不要图例; 相反直接在绘图区标记数据序列。通常标签放到最右侧最近的数据点是最好的。一些人认为图例是ok的如果你的数据系列不止一个的话。我的理念是任何组织得当的曲线图都不需要。
- 使用千位逗号分隔符让大数更易读
- 与之相关, 数据标签的精度表示永远不要超过需要。 比方说,Excel往往为货币格式选择2个小数位,但大多数曲线图并不需要这个,而且往往还可以取整到千位或者百万来减少数据标签大小。如果你的数字是10亿或万亿的规模的话,你就不需要看到那些0了,实际上这反而更难读。
- 调整坐标轴标签格式跟要衡量的数字的格式一致 ;比方说如果是美元的话,标签格式化为货币。
- 注意一下坐标轴标签的间隔 ,如果太挤的话调整一下。正如Tufte建议那样,要尽可能减少非数据墨水但又不要影响信息传达。
- Y轴要从0开始 (假设你没有负值)
- 数据序列不要太多 ;通常限制在5到8个之内,这要取决于曲线之间的拥挤程度。在罕见的情况下,超过这个限制也是可以的;有时候数据序列量大的是点,为了显示一堆集中的曲线。这就是特殊情况。
- 如果你的数据序列太多 ,如果情况允许的话考虑用折线图,比方说如果y轴在比例上适合所有折线图的话。
- 尊重色盲用户以及那些看不清楚你图表颜色的人 ,比方说看黑白打印稿的,同时要有颜色以外区分数据序列的选项,比如线型。我在在Amazon处理那么多数字时,总是会将负数格式化为红色,并且用括号包含起来以防有人看不到颜色。
- 对于异常事件要直接在图表上插入解释 ;你未必总能亲自去解释你的图表,如果你的图是送过去给别人的话。
- 一定要在图表下方备注数据来源。
有时候适用的其他建议:
- 如果大家会问那些数字是什么,并且能够简单套用的话,在图表上显示具体数据值。如果你已经有数据标签,网格线也许就没必要了。实际上,哪怕你没有数据标签可能也不需要。
- 把数字目标值作为渐近线进入,这样可以帮助受众了解你是否趋向于达成目标。
《The Visual Display of Quantitative Information》为什么对我的影响那么大?如果它只是一本有关可视化的开创性著作的话,就不会是我最值得信任的参考书之一,放在我的《Garner’s Modern American Usage(加纳的现代美国用法)》旁边,总是伸手可及的地方了。那些从来没做过图表的人我是不会推荐这本书的。
这本书对我影响如此深远的原因是这其实是一本通过知识追求真相的书。表面上看这本书讲的是如何把图表做得更好看;但本质上它告诉你的是如何让思路清晰的原则。读这本书,熬夜制作那些曲线图,跟全公司的人交谈以理解那些曲线图该作何解释,让我找到了解释过去预测未来的路径。你去问任何人他们喜爱的作品(电影)书籍或者唱片等)是什么,答案都不仅仅是作品本身。我看过《禅与摩托车维修艺术》,我想它的读者可不仅仅只是摩托车爱好者。
一张好的曲线图应该是左右脑的融合,是文理的结合。光有数字并不足以解释真相,但精确的数字,如果如实表示的话,是对我们道听途说的放大、认知偏见以及部落联盟的检验。
令我吃惊的是,每次我见到一张可以进行一些视觉编辑的曲线图时,我想到最多的就是那本书。大多数人都很懒,大多数人都按照默认,而地球上最流行的做表应用的默认设置很糟糕。
(有人可能会说为什么不试试苹果的Numbers。我试过一点,宾馆它在美学上要比Excel更干净,但总体而言电子表格太弱。我放弃PowerPoint转用Keynote,尽管它们各有优点。不幸的是,这两种都没有很好的制图表工具,尽管在功能上要比Excel的简单。像Numbers一样,Google Sheets的电子表格功能也很弱,而且非常难看。如果你们知道有什么出色的制图表工具的话,只要不需要像Tufte那样在Illustrator里面画图,请告诉我。)
原文地址:http://www.eugenewei.com/blog/2017/11/13/remove-the-legend
译者:boxi,由36氪编译组出品。编辑:郝鹏程。
关键字:数据报表, 图表, excel, analytics
版权声明
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!