在数据分析中,了解变量之间的关系非常重要。相关系数矩阵是一种衡量不同变量间线性相关程度的方法。Pandas 提供了 corr
方法来计算 DataFrame 中所有列之间的相关系数。
corr
方法可以计算 DataFrame 中所有数值列之间的相关系数。结果是一个矩阵,其中每个元素表示一对列之间的相关系数。# 准备数据和示例代码的运行结果,用于案例 72
# 示例数据
data_correlation_matrix = {
'A': [1, 2, 3, 4, 5],
'B': [5, 4, 3, 2, 1],
'C': [2, 3, 4, 5, 6]
}
df_correlation_matrix = pd.DataFrame(data_correlation_matrix)
# 计算相关系数矩阵
correlation_matrix = df_correlation_matrix.corr()
df_correlation_matrix, correlation_matrix
在这个示例中,我们计算了 A
、B
和 C
三个列之间的相关系数。
原始 DataFrame (df_correlation_matrix
):
A B C
0 1 5 2
1 2 4 3
2 3 3 4
3 4 2 5
4 5 1 6
相关系数矩阵 (correlation_matrix
):
A B C
A 1.0 -1.0 1.0
B -1.0 1.0 -1.0
C 1.0 -1.0 1.0
这个结果展示了每对变量之间的相关系数。在这个示例中,A
和 C
完全正相关,A
和 B
以及 B
和 C
完全负相关。相关系数矩阵在探索数据的关系和构建统计模型时非常有用。