在数据清洗过程中,识别和处理重复的行是一个常见的任务。Pandas 提供了 duplicated
方法来检测重复的行。
duplicated
方法返回一个布尔序列,标记出 DataFrame 中的重复行。默认情况下,它将第一次出现的行视为唯一,之后的相同行标记为重复。# 由于代码执行环境重置,需要重新导入 pandas 并准备数据
import pandas as pd
# 示例数据
data_duplicate_detection = {
'A': [1, 2, 3, 3, 5],
'B': [5, 4, 3, 3, 1]
}
df_duplicate_detection = pd.DataFrame(data_duplicate_detection)
# 检测重复行
duplicates = df_duplicate_detection.duplicated()
df_duplicate_detection, duplicates
在这个示例中,我们使用 duplicated
方法检测了 DataFrame 中的重复行。
原始 DataFrame (df_duplicate_detection
):
A B
0 1 5
1 2 4
2 3 3
3 3 3
4 5 1
检测到的重复行 (duplicates
):
0 False
1 False
2 False
3 True
4 False
dtype: bool
这个结果显示了 DataFrame 中的第 4 行(从 0 开始计数)是重复的。处理重复数据是确保数据质量和准确性的重要步骤。