主成分分析(Principal Component Analysis,PCA)是一种常用的无监督学习方法,用于降低数据维度并发现数据中的主要结构。PCA的目标是通过线性变换将原始数据投影到一个新的坐标系,使得数据在新坐标系中的方差尽可能大,从而保留数据的主要信息。
Python中使用scikit-learn
进行PCA的简单示例:
from sklearn.decomposition import PCA
import numpy as np
import matplotlib.pyplot as plt
# 生成随机数据集
np.random.seed(42)
data = np.random.rand(100, 2) * 5 # 生成一个二维数据集
# 创建PCA模型并拟合数据
pca = PCA(n_components=2)
pca.fit(data)
# 获取主成分和方差贡献
components = pca.components_
explained_variance_ratio = pca.explained_variance_ratio_
# 打印主成分和方差贡献
print("主成分:")
print(components)
print("\n方差贡献:")
print(explained_variance_ratio)
# 绘制原始数据和主成分
plt.scatter(data[:, 0], data[:, 1], label='原始数据')
plt.quiver(0, 0, components[0, 0], components[0, 1], angles='xy', scale_units='xy', scale=1, color='r', label='主成分1')
plt.quiver(0, 0, components[1, 0], components[1, 1], angles='xy', scale_units='xy', scale=1, color='b', label='主成分2')
plt.title('PCA')
plt.xlabel('特征1')
plt.ylabel('特征2')
plt.legend()
plt.show()
这个例子中,通过PCA找到了数据的主成分,并展示了主成分的方向。在实际应用中,可以选择适当的主成分数量来实现降维,减少数据的维度,同时保留数据的主要结构。