将非视觉的数据通过某种映射的方式(生成图像)串联视觉表达,生成可读可识别的结果,帮助用户高效地完成一些目标。
(说不清楚,直接画图)
Nominal
:标签类数据,比如男女,苹果、香蕉这些。Ordered
:等级、排序。Interval
:日期、坐标这种,没有0临界。Ratio
:计数,有0临界,比如没有-4个人,–100岁。定性数据绘制
特点:可以反应原始数据 分布的特征,即可以从图中看出上边缘、下边缘、中位数、两个四分位数以及离群点,能提供有关数据位置和分散情况的关键信息。
构造步骤
interquartile range (IQR) = Q3 –Q1
)来决定,upper fences是在高于上四分位点1.5IQR的位置,lower fence是在低于下四分位点1.5IQR的位置。注意,fence只用于辅助构建箱型图,并不实际出现在箱型图中(upper fence和lower fence会出现)。定量数据绘制
Quantitative
: Position Length Color Hue shapeNominal
: Position Color Hue Length shapeOrdinal
: Position Color Hue Shape Length多维数据
接近性:相互靠近的元素被认为是一个群组,与其他元素区分开。例如,在一个散点图中,如果在相同的区域内有多个点,我们会将它们视为一组并与其他点分开。
相似性:具有相似特征的元素往往被认为是一组。例如,在一个柱状图中,具有相同颜色或形状的柱子被视为一组并传达同样的信息。
连通性:连通性超过了接近度、大小、颜色形状。
连续性:在视觉上连续的元素往往被认为是一组。例如,一条连续的曲线通常表示一条数据趋势,而离散的点通常表示单独的数据点。
封闭性:具有边缘或形状的闭合元素往往被认为是一个整体。例如,一个有边界的面积图形表示一个特定的数据集,而没有边界的散点图表示一系列独立的数据点。
对称性
简单性:人们更容易理解简单、直观的形状和图形。例如,在可视化设计中,简单的线条、图标和图形通常比复杂的图形更易于理解和解释。
图形完整性(Graphical Integrity):确保图表能够准确地传达数据的信息,不夸大或歪曲数据。
谎言因子(The lie factor):避免使用图表中的元素尺寸或位置比例不准确地传达数据。
数据墨水笔(data-ink):最大化数据墨水的使用,即减少非必要的图形元素,使得数据更突出。
图表杂乱(Chart Junk):避免在图表中添加无意义的装饰元素,保持简洁性和清晰性。
主要思想:
优点 | 缺点 |
---|---|
不需要先验知识,计算简单; | 如果用户对观测对象有一定的先验知识,掌握了数据的一些特征,却无法通过参数化等方法对处理过程进行干预,可能会得不到预期的效果。 |
保留了数据在原始空间的相对关系,可视化效果比较好。 | 各个维度的地位相同,无法区分不同维度的重要性。 |
主要思想:
流程:PCA算法首先创建一个数据矩阵,然后通过减去均值来将数据中心化。接下来,它计算数据的协方差矩阵,并找到该矩阵的特征向量和特征值。最后,PCA算法根据特征向量将数据映射到新的低维空间。
优点 | 缺点 |
---|---|
使得数据集更易使用; | 如果用户对观测对象有一定的先验知识,掌握了数据的一些特征,却无法通过参数化等方法对处理过程进行干预,可能会得不到预期的效果,效率也不高; |
正交算法,降低算法的计算开销,速度快; | 降维后数据的邻域点与原来空间中的邻域点可能不同; |
去除噪声; | 特征值分解有一些局限性,比如变换的矩阵必须是方阵; |
使得结果容易理解;完全无参数限制。 | 在非高斯分布情况下,PCA方法得出的主元可能并不是最优的。 |
基本思想:SNE算法的基本思想是通过最小化KL散度来在低维空间中表示高维数据的相似性,通过仿射变换将数据点映射到概率分布上。
主要步骤:SNE构建一个高维对象之间的概率分布,使得相似的对象有更高的概率被选择,而不相似的对象有较低的概率被选择;SNE在低维空间里在构建这些点的概率分布,使得这两个概率分布之间尽可能的相似。
优点 | 缺点 |
---|---|
能较好地保持高维数据的局部结构; | 计算开销大; |
适合于揭示高维空间中紧密聚集数据的聚类结构。 | 对算法超参数敏感; |
改变了MDS中基于距离不变的思想,将高维映射到低维的同时,尽量保证相互之间的分布概率不变。 | 可能受到拥挤问题影响,导致不同的数据点在低维空间堆叠。 |
拥挤问题:由于没有考虑不同类间的间隔,因此会导致结果比较拥挤。各个簇聚集在一起,无法区分。 拥挤问题就是说降维后各个簇聚集在一起,无法区分。比如有一种情况,高维度数据可以分开,降维到低维就分不开了,MDS和SNE都存在。
基本思想:将数据点之间的相似度转化为条件概率,原始空间中数据点的相似度由高斯联合分布表示,嵌入空间中数据点的相似度由t分布表示。将高维空间中的数据映射到低维空间中,并保留数据集的局部特性。
相比SNE主要改动:使用对称版的SNE,简化梯度公式; 低维空间下,使用t分布
替代高斯分布表达两点之间的相似度。
优点 | 缺点 |
---|---|
能在不同规模数据集下展现高维数据点的聚类; | 速度慢,占用内存; |
可以减轻拥挤问题。 | 没有唯一最优解,且没有预估部分。 |
t-SNE
VS PCA
对比treemap和普通的树形文件系统,分别能执行什么任务不能执行什么任务?
主要算法:一开始对节点的位置进行随机初始化,定义所有节点之间存在斥力,相邻节点之间存在引力,然后开始按照节点之间两种力相互作用的结果重新确定节点之间的位置,每变换一次位置就要对力进行重新计算,一直迭代计算直到节点之间的位置不再改变或是改变幅度小于某个给定的值才结束。
缺点:迭代的步长不易确定,步长太大会导致形成的合力太大,可能会造成系统的震荡,不易达到平衡稳定的体系;步长太小会导致迭代步需要合并;速度慢,时间复杂度过高,为 O ( n 3 ) O(n^3) O(n3),排斥力的时间复杂度为 O ( n 2 ) O(n^2) O(n2);如果图中的节点和连接边的数量过多会导致边的交叉问题。
改进:
使用距离的平方和
进行比较、计算,避免开方计算;Barnes-Hut算法
通过聚合粒子来估算粒子之间相互的斥力,具体使用四叉树实现,最后优化的算法复杂度为O(nlgn)(每一个非叶节点表示一组相近的物体。如果一个非叶子节点的质心离某个物体足够远,那么就将树中那个部分所包含的物体近似看成一个整体,其位置就是整组物体的质心,其质量就是整组物体的总质量。如果非叶子节点离某个物体并不足够远,那么就递归地遍历其所有子树。);GEM算法
通过减少一个temperature参数来允许点在迭代早期移动大的距离后期移动小的距离来加速;node-link diagram
——由直线/曲线连接的节点enclosure diagrams
——用外壳表示层次结构layering
——相对位置、大小和对齐来表示关系和大小通过添加时间维度或交互能力来展示和探索文本数据。动态文本可视化侧重于呈现文本数据随时间或用户行为的变化,与静态文本可视化相比,它允许用户更深入地理解和分析数据。
文本数据获取、分词,文本数据特征提取,文本数据结果呈现。