本文仅仅是我对可视化主要知识的一些记忆与思考,欢迎大家学习与批评指正。
首先,什么是可视化?可视化是利用计算机图形学和图像处理技术,将数据在屏幕上显示出来,并使用交互式处理的方法、理论和技术。
可视化的基本流程是什么?数据收集-数据清洗-数据分析-数据可视化-数据交互。
数据类型有哪几种?
Norminal。标签
Orderde。有序的。
Interval。时间间隔。
Ratio。比率。
然后,可视化的方式有哪些?优缺点。
树状图。
热力词云图。
饼状图。
条形图。
力导向图。
箱线图。盒须图。
雷达图。
对比条形图。
列联表。
分段条形图。
直方图。这个还挺重要的,高中学过的。优点:提供了一个近似中心;可以直观的观察分布情况;可以了解数据的变化程度。直方图越镜像表示数据越对称。
茎叶图。又是高中的知识点啊。优点,相对简单,每一行按升序排列。缺点,大数据集会显得笨拙。
视觉编码方式有哪几种呢?
位置编码
长度编码。
大小编码。
颜色编码。
形状编码。
角度编码。
?
然后,可视化用到了哪些算法?
接着,可视化降维的方法有哪些?这个还挺重要的。
pca。主成成分分析。非常常见的一种降维方式。主要是通过将n维数据映射到k维上,形成新的k维的正交特征。
t-sne。t-sne是现在最有效的降维方法之一。t-sne 算法通过在高维空间之间建立一个概率分布拟合高维样本之间相对的位置关系;在低维空间建立一个概率分布拟合低维样本之间的相对位置关系,然后通过学习,调整低维数据点,使两个分布接近。
umap。实现过程与t-sne相似。先建立一个高维概率分布来表示高维样本之间的相对位置,再建立一个低维空间的概率分布来表示低维样本之间的相对位置,最后通过学习(梯度下降)来尽量缩小这两个概率的差异。
mds。主要是基于欧氏距离的一种降维方法,降维后样本间相对位置不变。
sne。弃用原因主要是因为sne高维与低维的概率分布不匹配。
然后,可以进行数据可视化的工具又有哪些呢?
E-chart
Tableau
D3.js
Vega/Vega-Lite
然后,对数据可视化中,你的可视化图像需要满足哪些要求呢?
有必要的标签。
Data-Ink尽可能大。
Chrat junks 尽可能少。
颜色不要太复杂,要使用适合人认识的颜色绘制。
文本可视化的原因?
理解。为了便于理解文档的要点。
分类。为了对文档内容更好的分类。
比较。为了对比文本信息随时间的变化。
连系。为了将文本和其他分类连系起来。
文本可视化的挑战?
高维度。文本中包含大量的特征和维度。
语境和语义。如何根据上下文或语义去更好的可视化。
模型与工具的选择。如何选择合适的工具模型与你的文本任务相匹配。
文本可视化的流程?
文本数据获取-文本数据预处理-文本数据特征提取-可视化设计-可视化实现-可视化呈现
什么是Marching Squares?
Marching Squares是一个地图生成轮廓的算法。
Marching Cubes的基本思想是什么?
Marching Cubes的基本思想是将三维体数据划分成一系列的立方体小单元,并根据每个立方体里面的数值确定该立方体所对应的表面形状。
Marching Cubes的算法流程是什么?
检查单元格。
讲每个顶点分为内外。
建立索引。
从索引中获取边列表。
插值边缘位置。
计算梯度。
考虑模糊情况。
转移到下一个单元格。
Marching Cubes的特殊情况?
遇到模糊情况。
直接体绘制与间接体绘制的联系和差异?
联系:
共同目标:直接体和间接体绘制都是将三维数据模型转变成图像或动画。
数据:都是用到三维数据例如体数据、点云数据。
渲染步骤:直接体绘制和间接体绘制都需要经过预处理、光照模型、传输函数等流程。
差异:
算法:直接体绘制通过对每个体素进行采样生成颜色与透明度直接生成图像;间接体绘制通过光线追踪技术、利用光线与体数据的相互作用间接生成图像。
效果:直接体绘制适用于大规模数据集、效率高;间接体绘制复杂性高,渲染程度高,适合需要高质量效果。
直接体绘制的基本步骤?
数据加载、传输函数设计、光照模型应用、采样和插值、颜色和透明度计算、图像合成、可是阿虎交互。
光线投射的基本过程?
定义摄像机。
发射光线。
确定光线与场景物体的交点。
计算颜色值。
输出图像。
根据给定数值进行alpfa合成的计算
以下是不重要的知识点:
可视化中对颜色的要求:
1.尽量不要使用太多的颜色,6个颜色比较理想
2.要尊重色盲
3.越重要的越大的值颜色越深
4.力求色彩和谐
5.黑白分明
标签云的优缺点?
优点:可以帮助定位和初步查询
缺点:
大小和位置不理想
长字占的位置更大
无法显示文本结构
词频可能没有意义
布局不稳定,可能不利于比较
什么是标量场呢?
标量场是空间中某个变量函数f(x,y,z)的近似值。