在数据分析中,如果特征太多,或者特征之间的相关性太高,通常可以用PCA来进行降维。比如通过对原有10个特征的线性组合, 我们找出3个主成分,就足以解释绝大多数的方差,该算法在高维数据集中被广泛应用。
算法(没时间看版本):
- 将数据标准化,即把所有数据转换以原点为中心;
- 划一条通过原点的直线,将所有点投影到该直线上,然后计算这些投影点到原点的距离平方和。设想我们不停的转动该直线,最终找到一条直线使得这个距离平方和最大,也就是该直线最接近所有的点,该直线为特征向量的方向,称为PC1,这个距离平方和即为特征值;
- 按同样的方法,找到第二条直线,该直线与PC1垂直且距离平方和最大,为PC2;
- 重复该过程直到找到所有的PC;
- 根据需求,确定头部的几个PC可以解释绝大多数方差。
下面先给出几个相关的概念。
样本均值:
x
ˉ
=
1
n
∑
i
=
1
N
x
i
\bar{x} = \frac{1}{n} \sum_{i=1}^N x_i
xˉ=n1?i=1∑N?xi?
样本方差:
S
2
=
1
n
?
1
∑
i
=
1
n
(
x
i
?
x
ˉ
)
2
S^2=\frac{1}{n-1} \sum_{i=1}^n {(x_i-\bar{x})}^2
S2=n?11?i=1∑n?(xi??xˉ)2
样本X和样本Y的协方差:
C
o
v
(
X
,
Y
)
=
E
[
(
X
?
E
(
X
)
)
(
Y
?
E
(
Y
)
)
]
=
1
n
?
1
∑
i
=
1
n
(
x
i
?
x
ˉ
)
(
y
i
?
y
ˉ
)
Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})
Cov(X,Y)=E[(X?E(X))(Y?E(Y))]=n?11?i=1∑n?(xi??xˉ)(yi??yˉ?)
散度矩阵
S
=
∑
k
=
1
n
(
x
k
?
m
)
(
x
k
?
m
)
T
S=\sum_{k=1}^{n}(x_k-m)(x_k-m)^T
S=k=1∑n?(xk??m)(xk??m)T
其中
m
=
1
n
∑
k
=
1
n
x
k
m=\frac{1}{n}\sum_{k=1}^{n}x_k
m=n1?∑k=1n?xk?
对于数据X的散度矩阵为
X
X
T
XX^T
XXT。其实协方差矩阵和散度矩阵关系密切,散度矩阵就是协方差矩阵乘以(总数据量-1)。因此它们的特征值和特征向量是一样的。同时散度矩阵是SVD奇异值分解的一步,因此PCA和SVD有密切关系。
奇异值分解是一个能使用任意矩阵的一种分解的方法,对于任意矩阵A总是存在一个奇异值分解:
A
=
U
∑
V
T
A=U\sum V^T
A=U∑VT
假设A是一个
m
×
n
m\times n
m×n矩阵,那么得到的U是一个
m
×
m
m\times m
m×m的方阵,U里面的正交向量被称为左奇异向量。
∑
\sum
∑是一个
m
×
n
m\times n
m×n矩阵,
∑
\sum
∑除了对角线其他元素都为0.对角线上的元素称为奇异值。
V
T
V^T
VT是V的转置矩阵,是一个
n
×
n
n\times n
n×n的方阵,它里面的正交向量被称为右奇异值向量。通常
∑
\sum
∑上的值按从大到小的顺序排列。
SVD算法:
- 求 A A T AA^T AAT的特征值和特征向量,用单位化的特征向量构成U;
- 求 A T A A^TA ATA的特征值和特征向量,用单位化的特征向量构成V;
- 将 A A T AA^T AAT或者 A T A A^TA ATA的特征值求平方根,然后构成 ∑ \sum ∑。
输入:数据集 X = x 1 , x 2 , x 3 , . . . , x n X={x_1,x_2,x_3,...,x_n} X=x1?,x2?,x3?,...,xn?,需要降到k维。
1.去平均值(即去中心化),即每一位特征减去各自的平均值。
2.计算协方差矩阵 1 n X X T \frac{1}{n}XX^T n1?XXT,注:这里除或不除样本数量 n n n或 n ? 1 n-1 n?1,其实对求出的特征向量没有影响。
3.用特征值分解方法求协方差矩阵 1 n X X T \frac{1}{n}XX^T n1?XXT的特征值与特征向量。
4.对特征值从大到小排序,选择其中最大的k个。然后将对应的k个特征向量分别作为行向量组成特征向量矩阵P。
5.将数据转换到k个特征向量构建的新空间中,即 Y = P X Y=PX Y=PX。
输入:数据集 X = x 1 , x 2 , x 3 , . . . , x n X={x_1,x_2,x_3,...,x_n} X=x1?,x2?,x3?,...,xn?,需要降到k维。
1.去平均值(即去中心化),即每一位特征减去各自的平均值。
2.计算协方差矩阵 1 n X X T \frac{1}{n}XX^T n1?XXT,注:这里除或不除样本数量 n n n或 n ? 1 n-1 n?1,其实对求出的特征向量没有影响。
3.用SVD分解方法求协方差矩阵 1 n X X T \frac{1}{n}XX^T n1?XXT的特征值与特征向量。
4.对特征值从大到小排序,选择其中最大的k个。然后将对应的k个特征向量分别作为行向量组成特征向量矩阵。
5.将数据转换到k个特征向量构建的新空间中。