管道Pipelines
通过预处理部署(甚至测试)复杂模型的关键技能。
在本教程中,您将学习如何使用管道来清理建模代码。
本课程所需数据集夸克网盘下载链接:https://pan.quark.cn/s/9b4e9a1246b2
提取码:uDzP
Pipelines管道是保持数据预处理和建模代码组织的一种简单方法。具体来说,管道包包含预处理和建模步骤,因此您可以将整个包当作单个步骤来使用。
许多数据科学家在没有管道Pipelines的情况下将模型拼凑在一起,但管道有一些重要的好处,其中包括:
我们将继续使用墨尔本住房数据集。
我们将不关注数据加载步骤。相反,您可以想象您已经拥有了 X _ train、 X _ valid、 y _ train 和 y _ valid
中的训练和验证数据。
In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
#加载数据
data = pd.read_csv('E:/data_handle/melb_data.csv')
#选择目标
y = data.Price
#使用数字预测器
melb_predictors = data.drop(['Price'],axis=1)
X = melb_predictors.select_dtypes(exclude=['object'])
#将数据分为训练和验证子集
X_train_full, X_valid_full