Pandas 是一个基于 NumPy 的开源数据处理和数据分析库,它提供了高效、灵活且易于使用的数据结构和数据分析工具。Pandas 的设计目标是使数据操作变得简单直观,同时提供高性能的数据操作能力。
Pandas 提供两种主要的数据结构:Series 和 DataFrame。
Pandas 提供了丰富的数据操作和处理功能,包括数据清洗、数据合并、数据过滤、数据排序、数据分组、数据计算等。它还支持从多种数据源读取数据,如 CSV 文件、Excel 文件、SQL 数据库等,并可以将数据写入不同的文件格式。
Pandas 的优势在于其高效的数据处理能力。它通过底层的 C 或 Cython 实现了大部分功能,提供了高性能的数据操作。此外,Pandas 还提供了灵活的索引和切片功能,可以轻松地选择、过滤和操作数据。
除了数据处理,Pandas 还提供了简单易用的数据可视化功能。它结合了 Matplotlib 库,可以轻松地绘制折线图、柱状图、散点图等各种图表。
以下是 Pandas 常用的功能:
Pandas 可以从多种数据源读取数据,如 CSV 文件、Excel 文件、SQL 数据库等。
import pandas as pd
df = pd.read_csv('example.csv')
print(df)
Pandas 可以将数据写入到不同的文件格式,如 CSV、Excel、SQL 数据库等。
import pandas as pd
df.to_csv('example.csv', index=False)
import pandas as pd
df.fillna(value=0)
import pandas as pd
df.drop_duplicates()
import pandas as pd
df[df['A'] > 0]
print(df)
import pandas as pd
df.sort_values(by='B')
import pandas as pd
df.groupby('A').mean()
import pandas as pd
df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value': [1, 2, 3, 4]})
df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value': [5, 6, 7, 8]})
pd.merge(df1, df2, on='key', how='outer')
import pandas as pd
df['A']
#选择列
df = df.loc[0]
#选择索引为0的行
df[df['A'] > 0]
import pandas as pd
df.iloc[0:2, 0:2]
df.describe()
是 Pandas 中的一个函数,它用于生成描述性统计信息的摘要。该函数仅适用于数据类型为数值型和布尔型的列,而忽略了文本列。
import pandas as pd
# 创建一个示例 DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['New York', 'London', 'Paris']}
df = pd.DataFrame(data)
# 描述性统计信息
summary = df.describe()
print(summary)
import pandas as pd
# 创建一个示例 DataFrame
data = {'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
'C': [1, 2, 3, 4, 5, 6, 7, 8],
'D': [10, 20, 30, 40, 50, 60, 70, 80]}
df = pd.DataFrame(data)
# 按列 A 分组并求和
grouped = df.groupby('A').sum()
print(grouped)
输出结果:
以上就是pandas一些常用的功能。总而言之,Pandas 是一个强大的数据处理和分析工具,适用于各种规模的数据集。它使得数据处理变得简单直观,并提供了高效的性能。无论是数据清洗、数据分析还是数据可视化,Pandas 都是一种重要的选择。