PCA
综述:数据降维的方法
可以用一种线性变换的思想去理解,比如二维的一条直线,我们可以通过变换,使得这一条直线落在x或y轴上,达到降维的效果。
PCA
综述:数据降维的方法
可以用一种线性变换的思想去理解,比如二维的一条直线,我们可以通过变换,使得这一条直线落在x或y轴上,达到降维的效果。
这时候就可以重新定义一下 PCA 的目标:在只保留一个轴时候,使得信息保留最多(二维)
部分知识:
去中心化(把坐标原点放在数据中心)
找坐标系,找到数据方差最大的方向,就是第一主成分。(如果第一主成分不足以表达,就考虑吧选取第二个)
为了有效反映原来信息,第一主成分和第二主成分的协方差为0.以此类推可以获得p个主成分。这些主成分是互不相关,是依次递减的。
累计方差贡献率大于百分之80就可以了,或者特征根大于1就可以了。
?根据线性代数的知识,我们需要一则伸缩,二则旋转,伸缩不是问题
旋转的矩阵R又从何而来?
即是协方差矩阵的特征向量就是R。
协方差定义=
上面是没有经过中心化的协方差公式
下面经过中心化之后,均值已经变成0了,所以的得到公式
=
协方差表示的是两个变量在变化过程中是否同方向变化,还是反方向变化,同向或者反向的程度如何呢?
(二维)
计算步骤
1.假设样本有n个样本,p个指标,可以构成n*p的样本矩阵x
2.标准化处理,计算均值和标准差,进行标准化
3.将上述矩阵进行协方差的计算
求出矩阵R
以上两步可以合成1步
4.借由矩阵R,求出特征值和特征向量(R是半正定矩阵,tr(R)=p)
求出特征向量(以上可以由编程工具计算得出)
5.计算主成分贡献率和累计贡献率。取前百分之八十就可以了