Introduction

数据可视化与 BI

大数据汇聚数据处理与分析数据可视化这三者构成了数据科学的主要流程,本篇数据可视化更多地关注于数据展示相关的技术知识。

可视化定义

数据可视化研究的是,如何将数据转化成为交互的图形或图像等,以视觉可以感受的方式表达,增强人的认知能力,达到发现、解释、分析、探索、决策和学习的目的。《数据可视化之美》一书中阐述道:数据可视化(Data Visualization)和信息可视化(Infographics)是两个相近的专业领域名词。狭义上的数据可视化指的是数据用统计图表方式呈现,而信息可视化则是将非数字的信息进行可视化。前者用于传递信息,后者用于表现抽象或复杂的概念、技术和信息。而广义上的数据可视化则是数据可视化、信息可视化以及科学可视化等等多个领域的统称。

科学可视化(Scientific Visualization)、信息可视化(Information Visualization)和可视分析学(Visual Analytics)三个学科方向通常被看成可视化的三个主要分支。这三个分支整合在一起形成的新学科“数据可视化”,是可视化研究领域的新起点。

科学可视化

科学可视化(Scientific Visualization)是可视化领域最早、最成熟的一个跨学科研究与应用领域[石教英 1996]。面向的领域主要是自然科学,如物理、化学、气象气候、航空航天、医学、生物学等各个学科,这些学科通常需要对数据和模型进行解释、操作与处理,旨在寻找其中的模式、特点、关系以及异常情况[Schroeder2004]。

信息可视化

信息可视化(Information Visualization)处理的对象是抽象数据集合,起源于统计图形学,又与信息图形、视觉设计等现代技术相关。其表现形式通常在二维空间,因此关键问题是在有限的展现空间中以直观的方式传达大量的抽象信息。与科学可视化相比,科学可视化处理的数据具有天然几何结构(如磁感线、流体分布等),信息可视化更关注抽象、高维数据。柱状图、趋势图、流程图、树状图等,都属于信息可视化最常用的可视表达,这些图形的设计都将抽象的数据概念转化成为可视化信息。

可视分析学

可视分析学(Visual Analytics)被定义为一门以可视交互为基础的分析推理科学[Thomas2005]。它综合了图形学、数据挖掘和人机交互等技术,以可视交互界面为通道,将人感知和认知能力以可视的方式融入数据处理过程,形成人脑智能和机器智能优势互补和相互提升,建立螺旋式信息交流与知识提炼途径,完成有效的分析推理和决策。

可视化流程

数据可视化的本质是将数据通过各种视觉通道映射成图形,可以使得用户更快、更准确的理解数据。因此数据可视化要解决的问题是如何将数据通过视觉可观测的方式表达出来,同时需要考虑美观、可理解性,需要解决在展示的空间(画布)有限的情况下覆盖、杂乱、冲突等问题,再以交互的形式查看数据的细节。

整个可视化流程,可以抽象地分为视觉编码与视觉通道两部分:

  • 视觉编码描述的是将数据映射到最终可视化结果上的过程。这里的可视化结果可能是图标,图片,也可能是一张网页等等;数据映射指把我们要分析的数据转换成可视化结果可以展示的数据,比如在把业务数据转换成 ECharts 或者 G2 Chart ,为展示的数据封装了一些组件。

  • 视觉通道是利用几何图形的尺寸、数值、纹理、颜色、方向和形状来表示数据的图形,后来人们又补充了长度、面积、体积、透明度、模糊/聚焦、动画等特征;通过这些特征最终呈现的图形主要有散点图、条形图、直方图、饼形图、线形图和累计图等。

数据可视化过程可以分为下面几个步骤:

  • 定义要解决问题

  • 确定要展示的数据和数据结构

  • 确定要展示的数据的维度(字段)

  • 确定使用的图表类型

  • 确定图表的交互

问题定义

首先明确数据可视化是要让用户看懂数据,理解数据。所以开始数据可视化前一定要定义通要解决的问题。例如:我想看过去两周销售额的变化,是增长了还是下跌了,什么原因导致的?你可以从 趋势、对比、分布、流程、时序、空间、关联性等角度来定义自己要解决的问题。

数据选择

进行数据可视化首先要有数据,由于画布大小的限制,过量的数据不能够在直接显示出来,所以要确定展示的数据:

  • 我要展示的数据是否已经加工好,是否存在空值?

  • 是列表数据还是树形数据?

  • 数据的规模有多大?

  • 是否要对数据进行聚合,是否要分层展示数据?

  • 如何加载到页面,是否需要在前端对数据处理?

维度选择

进行可视化时要对字段进行选择,选择不同的字段在后面环节中选择适合的图表类型也不同。

图表选择

视觉编码设计的原则:

  • 表达性、一致性:可视化的结果应该充分表达了数据想要表达的信息,且没有多余。

  • 有效性、理解性:可视化之后比前一种数据表达方案更加有效,更加容易让人理解。

数据可视化场景

  • 通用报表

  • 移动端图表

  • 大屏可视化

  • 图编辑与图分析

  • 地理可视化