PCA；MDS；TSNE

发布时间：2024年01月03日

PCA:

PCA的主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。PCA采用一个线性变换将数据变换到新的坐标系统，使得任何数据点投影到第一个坐标的方差最大，第二个坐标方差为第二大，依此类推。因此，PCA可以减少数据维数，并保持对方差贡献最大的特征。
优点：

??? 使得数据集更易使用；
?? ?降低算法的计算开销
?? ?去除噪声；
?? ?使得结果容易理解；
?? ?完全无参数限制。
缺点：如果用户对观测对象有一定的先验知识，掌握了数据的一些特征，却无法通过参数化等方法对处理过程进行干预，可能会得不到预期的效果，效率也不高；
特征值分解有一些局限性，比如变换的矩阵必须是方阵；
在非高斯分布情况下，PCA方法得出的主元可能并不是最优的。

MDS:

MDS的基本原理是根据数据集的相似程度，计算各数据点在K维空间中的位置。算法的关键在于定于数据点之间的距离函数，使其尽可能逼近数据在原始高维空间的相似程度。
缺点：结果不具备旋转无关性，即两次计算获得全局最优解需要实施旋转变换后才会一致。此外，不同的初始值可能导致结果不同，即陷入局部最优。因此，使用MDS法时只能关注数据点在低位空间的相对位置，而不是绝对位置。

t-SNE：

?? SNE是通过仿射变换将数据点映射到概率分布上，主要包括两个步骤：
?? ?SNE构建一个高维对象之间的概率分布，使得相似的对象有更高的概率被选择，而不相似的对象有较低的概率被选择。
?? ?SNE在低维空间里在构建这些点的概率分布，使得这两个概率分布之间尽可能的相似。
?? ?t-SNE是在SNE的基础上进行了以下两点改进：
?? ?使用对称SNE，简化梯度公式
?? ?低维空间使用t分布取代高斯分布
优点：改变了MDS中基于距离不变的思想，将高维映射到低维的同时，尽量保证相互之间的分布概率不变，SNE将高维和低维中的样本分布都看作高斯分布，而Tsne将低维中的坐标当做T分布，这样做的好处是为了让距离大的簇之间距离拉大，从而解决了拥挤问题。
?? ?tSNE在使用时只需要稍微调整参数，就能在不同规模下展现高维数据点的聚类。
缺点：

?? 主要用于可视化，很难用于其他目的。
?? ?t-SNE倾向于保存局部特征，对于本征维数本身就很高的数据集，是不可能完整的映射到2-3维的空间
?? ?t-SNE没有唯一最优解，且没有预估部分。
?? ?训练太慢。

文章来源:https://blog.csdn.net/XUYH6904/article/details/135313882
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！