在数据分析中,检测和处理异常值(或离群值)是一个重要的步骤。异常值可能会影响数据的整体分析。一种常用的方法是使用四分位数和四分位数间距(IQR)来识别异常值。
# 准备数据和示例代码的运行结果,用于案例 26
# 示例数据
data_outlier_detection = {
'Values': [10, 12, 12, 14, 15, 15, 100]
}
df_outlier_detection = pd.DataFrame(data_outlier_detection)
# 检测异常值
Q1 = df_outlier_detection['Values'].quantile(0.25)
Q3 = df_outlier_detection['Values'].quantile(0.75)
IQR = Q3 - Q1
outliers = df_outlier_detection[(df_outlier_detection['Values'] < (Q1 - 1.5 * IQR)) |
(df_outlier_detection['Values'] > (Q3 + 1.5 * IQR))]
df_outlier_detection, outliers
在这个示例中,我们使用 IQR 方法检测了异常值。
原始 DataFrame (df_outlier_detection
):
Values
0 10
1 12
2 12
3 14
4 15
5 15
6 100
检测到的异常值 (outliers
):
Values
6 100
这个结果显示,值 100 是一个异常值。异常值检测对于理解数据集和进行准确的统计分析至关重要。