DataFrame.sample 是 pandas 库中 DataFrame 对象的方法,用于从数据框中抽取随机样本。
DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)
n
(int或None):
n
,则 frac
应设置为 None。frac
(float或None):
frac=0.25
表示抽取 25% 的样本。n
和 frac
,将使用 frac
参数。replace
(bool,默认为False):
weights
(str或数组型,默认为None):
random_state
(int或RandomState实例或None,默认为None):
axis
({0或‘index’,1或‘columns’},默认为0):
应用示例:
import pandas as pd
df = pd.read_csv('label.txt', sep='\t')
# 从数据框中抽取10个样本
sampled_data = df.sample(n=10)
# 从数据框中抽取总样本的30%
sampled_data_frac = df.sample(frac=0.3)
# 从数据框中进行有放回抽样(允许重复)
sampled_with_replacement = df.sample(n=10, replace=True)
# 指定每个样本的权重进行抽样
sampled_with_weights = df.sample(n=10, weights='column_with_weights')
# 指定随机种子以实现可重复抽样
sampled_with_seed = df.sample(n=10, random_state=42)