数据类别

数据类别

1.序数数据 可明确每项数据的定义或者边界,数据可被枚举。 例:部门;性别;花名;商家 常用序数比例尺将数据映射为图形,比例尺为等比例等比例尺,对应图表的序数类型的展示。 可使用的图形元素包括不仅限于:序数的 XY 轴,形状或图标,枚举的 颜色,区域位置,表格行列···

常见的数据问题: 问题:枚举数目可能过多; 解决:取 TOP N ,剩余的归纳为“其他”。N 不宜过大

问题:数据项的定义可能不清晰; 解决:tooltip,或者说明文案;

展示建议: 1.采用用户关注的指标进行排序。 2.如果数据项固定,则固定展示位置以及固定使用某种图形元素,培养用户习惯。一旦用户养成习惯,即可减少很多繁琐的文字说明,用户认知更能统一。

ps:本文不提倡提供图表示例,会限制读者思维。读者可以根据上诉提供的元素任意组合想象。

2.线性数据 连续的不能明确每项的边界。这里容易与上诉等序数数据混淆的类型,例:[1,2) ; [2,3) ; [3,4)······ 此类数据可明确每项数据的边界,所以应该归类为序数数据而不是连续数据。例如,SDR 评分,在客户端打分,用户只能打整数分,计算商家平均评分为 1.1 与得分 1.25 的商家数从分析上来说区别不大,我们可以合并为区间数据,假设使用散点图展示,便可解决散点互相覆盖而不清晰的问题。 在展示中若用户关注数据变化,可按大小递增递减排序。若用户关注其所携带的值 value 大小,可不用考虑其自身顺序甚至打乱顺序。 例:营销额

常见的数据问题: 1.数据区间分布不均,通常表现为,多个指标在一个图表中。例如多条折线图,其中一个折线数据区间值范围分布在[10000,2000],而其他指标分布在[100,1000],这样会把其他折线压平而看不到变化趋势。从视觉上就是一条横线。

2.峰值过大压低其他变化趋势。 解决方案:将指标按照数据分布区间拆分成同 X 轴或者同 Y 轴的多图展示方式。

3.时序数据 按照时间顺序,以特定时间粒度为步长增长, 例:股票,网站日志,周 PV/UV

此类数据展示通常建议采用时间轴的展示方式,通常有横向时间轴,与纵向时间轴。 横向时间轴,常用于统计数据折线图,柱状图等。如果时间跨度较大,1.可采用拉伸 slider 控制展示的时间范围;2.通过切换时间粒度控制展示。

纵向时间轴,纵向图表的一大特性就是可以展示坐标轴刻度较大的数据。也就是说可展示的内容更多。但纵向时间轴不如横向图表一目了然,所以更适合具有故事发展性但数据展示(例如:大事记;版本修订记录)。

常见的数据问题:

  1. 数据缺失。时序不像序数数据,类别。缺少某段时间但数据,会使数据视觉上出现跳跃,或者出现空白。非常影响可视化但美观,简而言之,容易误以为有 bug。

    解决方案建议: 1.补全时序,数据值补 0。优点:简单,符合数据情况。缺点:展示 0,不能判断出是真实数据 0,还是缺失数据。 2.线性过度。注意,线性过度后的展示一定要区别与正常数据的。例如,鼠标经过无效果,或者用虚线或灰线展示。

4.地理数据 含有单个地理位置的信息, 例:手机机站位置,商场 wifi 位置 {x:000,y:0001} 地理信息通常会伴随其他指标,例如人数,城市类型,迁徙。这些即地理信息与其他数据类型的组合。单纯从地理信息的数据考虑,常见问题: 1.数据量大,检索、渲染效率低。 建议优化方案:通过四叉树优化二维空间检索(八叉树优化三维空间);渲染可以分批次渲染;减少渲染过度效果,等。 2.商场园区平面图位置等非经纬度数据,与背景图契合。可采用 0 到 1 的坐标系,按比例尺映射于平面图。

5.关系数据 包含节点信息,关系信息的数据,可能带有方向性,例:微博数据 关系数据可能包含:节点类别,节点值大小,关系类型,关系数量,关系权重,关系方向,路径等属性,属性可选。 按照关系类型又可分为: 1.树型关系 tree 2.簇群关系 cluster 3.图(包含树和簇群)允许出现关系回路,也称网状关系。 4.链路/流程关系,具有明显方向性,通常会结合时序数据。

除开算法分析外,在可视化过程中,我们可以做哪些? 1.聚类,社群分析。 2.关联关系,发现大 V。即关联关系中关键连接点。 3.最短路径。从 A 点到 B 节点最短发生关联关系的路径,通常用于线索发现,分析本不存在直接关联的 AB 两个实体之间的关联,从而发现关系线索节点(关系桥接点)。 4.边捆绑算法展示与路径热力,用于航线等路径规划等。 5.流程/路径/轨迹播放 6.知识图谱与思维导图分析,要求典型树型数据结构。

问题: 1.布局切换。通常根据数据类型,会选择不同的布局方式。然而在有些场景下,我们需要这样的操作。例如,将网状结构的关系数据,希望通过树形机构进行展示。通常树结构只有一个根节点,并且无回路,所以, 解决方案:则取最核心(关联关系最多的)的节点为根节点。如果数据是多个集群,即由多个图组成,相当于多个树;可虚拟一个根节点,这样绘制的时候可以作为树结构处理,大大减少计算难度。回路,可以在树的机构上,增加线条。严格意义上,这个可视化只是树布局,并非树。 2.强交互的关系图谱 请为每个节点配置唯一 ID,次 id 作为关系链接的标志。尽量不要使用节点数组下标作为关系链接标志。 3.两个节点间关系繁杂的情况下,可以先进行统计规整。

组合数据 通常我们的数据较少是一维数据,通常都是二维以上数据。在数据可视化中,两个和三个维度的数据展示是最清晰的。四个维度的数据基本是一张图表可视化能理解的上限了。再多就使得图表理解困难。最好对图表进行拆分,进行联动等其他展示方案。