平行坐标系:高维数据可视化分析的必备杀手锏

今天聊聊一种不太常见但又挺好用的可视化图形:平行坐标系。

关于数据可视化,我们很久之前分享过Excel基础图表以及Excel进阶图表,都是Excel支持的我们常用的一些图表逻辑。今天分享一个数据人应该见过但是不那么熟悉的图形:平行坐标系(Parallel Coordinates)。

一、定义及适用场景

首先,聊聊平行坐标系的一些整体概述内容。

1. 基础定义

平行坐标系,是一种含有多个垂直平行坐标轴的统计图表。每个垂直坐标轴表示一个字段(维度),每个字段(维度)又用刻度来标明范围,如下示例图。

平行坐标系:高维数据可视化分析的必备杀手锏

这样,一个多维的数据可以很容易地在每一条轴上找到“落点”,从而连接起来,形成一条折线。随着数据增多,折线堆叠,分析者则有可能从中发现特性和规律,比如发现数据之间的聚类关系。

2. 历史发展

大约在一百多年前,就已经有人运用平行坐标,来对复杂事件做可视化。

平行坐标系:高维数据可视化分析的必备杀手锏

在20世纪70年代,作为一种统计图表,平行坐标系被特拉维夫大学的Alfred Inselberg系统发展起来。

3. 适用场景

平行坐标图最适用于多维数据(尤其是维度大于3个时,3个以内的维度可以用散点图)的分析和比较。例如,多个学科、多个考核指标、多个关键参数等。

当然,前提是用来比较的对象都具有这些维度。比如,一个经典的案例(下文中的场景案例2),是用平行坐标系来比较世界各国汽车在性能上的差异。对于汽车而言,这些维度是共有的(包括耗油量、汽缸数、加速度等等),因而适合比较。

二、图表详细逻辑

我们以一个例子,理解一下图表的数据逻辑。

例如,某班主任想分析班级学生的优劣势科目,以及每个学生的偏科情况。下面是具体数据表:

平行坐标系:高维数据可视化分析的必备杀手锏

做完平行坐标图后:

平行坐标系:高维数据可视化分析的必备杀手锏

平行坐标系的每个坐标轴,很可能有不同的数据范围,这一点很容易造成读者误解。作图时,最好显著标明每一根轴上的最小值、最大值。

使用平行坐标系时,如何确定轴的顺序,是可以人为决定的。一般来说,顺序会影响阅读的感知和判断。两根坐标轴隔得越近,人们对二者的对比就感知地越强烈。因此,要得出最合适、美观的排序方式,往往需要经过多次的试验和比较。反过来讲,尝试不同的排布方式,也可能有助于得出更多的结论。

三、与其他图表的关系

下面我们看一看平行坐标系和其他比较相似的图表的对比。

1. 与折线图

平行坐标系与折线图完全不同。

平行坐标系:高维数据可视化分析的必备杀手锏

折线图的数据是通过时间组织起来的(每个数据点之间包含着时间前后的关系),但平行坐标轴并没有时间序列,它的坐标轴是可以人为设定顺序的,点与点之间也没有因果关系,折线并不代表趋势。各个坐标轴之间也没有因果关系。

2. 与桑吉图

桑吉图在之前的 路径分析 中有过介绍。

平行坐标系:高维数据可视化分析的必备杀手锏

看着挺像的,但是桑吉图有个重要的逻辑是:每个竖轴前后是有顺序关系的,而平行坐标系没有先后顺序。

因此,桑吉图更多作为用户路径先后顺序的分析,以及层次拆分的分析。

3. 与雷达图

其实,平行坐标系和雷达图是最相近的。

平行坐标系:高维数据可视化分析的必备杀手锏

雷达图表示的是多个维度上的分布情况,平行坐标系也是。因此可以将平行坐标系理解成雷达图的展开。大多数情况下,这两者确实可以互换。

四、劣势以及交互提升

平行坐标系的弊端在于折线太多、看上去十分庞杂,过于凌乱。但平行坐标系在处理多维数据上的优势,仍然是其他统计图难以比拟的。尤其是,当平行坐标系配合交互功能使用时,其价值就会立刻显现。

最好的解决方法是加入交互——“Brushing”,用户可以通过“刷”的方法,在坐标轴上“刷”出他们想要探索的部分。基本操作是,用户可以在每一根垂直坐标轴上“刷”出自己想要的范围,处于范围内的折线高亮,其余的呈灰度。这样一来,我们既可以看到所有折线堆叠出来的整体景观,又可以自由定制想看的范围,可以说是“见树又见林”。

当然,交互的设计可以不限于此,比如下图将平行坐标系与表格结合起来,对于小型的数据集来说,会更加一目了然。

平行坐标系:高维数据可视化分析的必备杀手锏

此外,如下图所示,也可以通过技术将繁杂的折线“捆”在一起(Bundling Technique),这样,人们的视觉就更能集中于起始的刻度。

平行坐标系:高维数据可视化分析的必备杀手锏

五、典型案例

最后,我们看两个典型的利用平行坐标系的案例。

1. 历年世界500强排名

下图总结了1955-2010年来的世界五百强公司排名、收入和利润情况。

平行坐标系:高维数据可视化分析的必备杀手锏

每一根竖轴代表一年的排名,通过将每家公司历年的排名描点、连线,就形成了一条折线。鼠标滑动时,相应的公司会高亮显示,方便读者探索它的兴衰变化。例如上图中,我们看到可口可乐公司的排名,尽管有所波动,但始终位于高位,并且稳中有升,在1994年达到巅峰,之后有所回落。

原文链接:https://fathom.info/fortune500/

2. 汽车参数对比

在平行坐标系的众多简介中,几乎都会涉及到这个汽车的案例——数据包括上世纪70、80年代的32款汽车,以及这些汽车的气缸数(cylinders)、引擎大小(displacement)、每加仑汽油行驶的里程(MPG)、功率(horsepower)、重量(weight)等等。

平行坐标系:高维数据可视化分析的必备杀手锏

从图中(Evans, no date),我们可以清晰地看出一些关系,例如从里程与气缸数呈负相关、气缸数与功率呈正相关。再比如,随着时间发展,汽车越来越轻了。通过“Brushing”功能,还有更多新奇发现。

关于平行坐标系,我们就先介绍这些吧。如果大家对可视化图表感兴趣,后面我作为系列展开多分享分享。我觉得这种基础的数据产品以及数据分析的知识点,还是有必要扎实掌握的。

#作者#

NK冬至,公众号:首席数据科学家。在金融领域、电商领域有丰富数据及产品经验。擅长数据分析、数据产品等相关内容。

版权声明

本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部