技术开发 频道

通过一个视频剖析数据可视化的秘密

  数据绘图的要素

  现在,转换位置思考。假设,我们有一批数据,那么应该怎么来着手呈现呢?这个问题并不好回答,原因有二:

  1) 数据中包含有大量的信息维度,我们只能选择其中的一些而非全部呈现。

  2) 数据的信息呈现方式多种多样

  我们需要先确定想要绘制的信息维度。比如上面的视频中,六个信息维度得到呈现。而在S&P 500的绘图中,我们只呈现了两个维度的信息,时间和指数。如果图像中信息维度比较少,图表会比较容易理解; 如果信息维度多,那么图表会比较复杂,但更容易体现多变量之间的关系。

  每个信息维度都需要一个坐标,来表现数据在该维度上的取值。在Hans Rosling的绘图中,六个坐标分别是:水平x轴,竖直y轴,圆圈颜色,圆圈大小,动画帧所对应的时间,以及文字标明的国家名。这六个维度之间相互独立,所以可以互不干扰的反映各个维度上的取值。再比如下面的条形图和饼图。它们都是在反映二维信息。条形图采取了x-y的坐标。饼图采取了文字-圆心角的坐标。

  每一个坐标都需要有刻度。读者需要根据刻度获知数据的准确取值。刻度可以是均匀线性增长的,也可以是不均匀增长(比如对数刻度)。刻度的选择要根据数据的特征。如果不同数据样本在某个维度上取值差异较大,就适用于对数取值。比如下面这幅xkcd 1162的画,就展示了不采用对数刻度的恶果。


  Log Scale (xkcd 1162)

  此外,刻度还需要有范围。正如再S&P 500的绘图中我们谈到的,过大的刻度范围会从视觉上减小波动。一个常用的刻度范围是数据在该维度上的最大和最小值。但一些情况下,最大和最小值可能是由于错误状况造成的不可靠数据,所以会采取平均值加减标准差的范围。

  在维度和刻度都选取好了之后,要再坐标轴旁标注这是什么维度,维度的单位,并在坐标轴上标注刻度值。这样,我们才完整了数据在该维度上的信息。一个有坐标轴,有刻度但没有标注的数据绘图,是失败的绘图。读者根本无法从中获知数据的真实状况。

  (在Hans Rosling的绘图中,有两个维度的信息不完整:人口总数和国家名称)

  在上面完成了之后,我们需要进一步说明数据来源。我们可以采用增加文字说明的方式来实现这一点(比如增加一个标题)。

  总结

  数据可视化非常有趣。它通过技术的手段,将枯燥的数据变得生动可爱。随着大数据时代的到来以及网络传播的发达,数据可视化会成为一项值得掌握的技能。这篇文章里,我通过一个很棒的视频说明了数据可视化的一些要点,特别是信息维度的问题。我会在以后介绍一些常用的绘图工具,将理论转化为实践。

  更多精彩尽在2014年4月10日-12日在北京五洲皇冠国际酒店举办的第五届中国数据库技术大会,2月29日之前订票可享受7.8折最低票价。

Facebook专家:Hadoop不足以处理大数据
进入官网了解更多详情

0
相关文章