集成学习之GBDT算法详解

发布时间：2024年01月14日

先说一下提升树(Boosting Decision Tree)：通过拟合残差的思想来进行提升，残差 = 真实值 - 预测值，例如：

某人年龄为100岁，预测其年龄
第一次预测结果为80岁，残差为100-80=20
第二次预测以残差20为目标，预测结果为16岁，残差为4
第三次预测以残差4为目标，预测结果为3.2，残差为0.8
三次结果串联起来预测结果为80+16+3.2=99.2，通过拟合残差可以将多个弱学习器组成一个强学习器

梯度提升树(Gradient Boosting Decisen Tree)：梯度提升树不再拟合残差，而是采用类似于梯度下降的方法，利用损失函数的负梯度作为提升树算法中的残差近似值。一句话：把损失函数的负梯度作为下次预测的目标值，把同子树的均值作为预测值，相减作为负梯度。

假设：

前一轮迭代得到的强学习器：
- ???????????????????????????????????????????????????????????????????? $f_{t-1}(x)$
损失函数为平方损失：
- ??????????????????????????????????????????????????????????????????? $L(y,f_{t-1}(x))=\frac{1}{2}*\displaystyle\sum_{i=1}^n(y_i-f_{t-1}(x_i))^2$
本轮迭代的目标是找到一个弱学习器：
- ?????????????????????????????????????????????????????????????????????????????????? $h_t(x)$
本轮的强学习器为：
- ?????????????????????????????????????????????????????????????????????????????????? $f_{t}(x)=f_{t-1}(x)+h_t(x)$

则本轮的损失函数为：

???????????????? $L(y,f_{t}(x))=\frac{1}{2}*\sum_{i=1}^n(y_i-f_t(x_i)^2)=\frac{1}{2}*\sum_{i=1}^n(y-f_{t-1}(x_i)-h_t(x_i))^2$

则要拟合的负梯度为：

??????????????????????????????????????????????????????????????????????????????????? $-\frac{dL(y,f(x_i))}{df(x_i)}=y_i-f(x_i)$

注：如果GBDT进行的是分类问题，则损失函数变为对数损失。

算法推导案例

x	1	2	3	4	5	6	7	8	9	10
目标值	5.56	5.70	5.91	6.40	6.80	7.05	8.90	8.70	9.00	9.05

1. 初始化弱学习器(CART树)：把预测值初始化为目标值的均值，可使第一个弱学习器的损失函数最小，证明如下：

? ? $L(y,f(x))=\frac{1}{2}*\sum_{i=1}^n(y_i-f(x_i))^2$ ，求平方误差最小，即对损失函数求导，导数为0时，函数最小

? ? ? $\frac{dL(y,f(x))}{df(x_i)}=\sum_{i=1}^n(y_i-f(x_i))*(y_i-f(x_i))'=\sum_{i=1}^n(y_i-f(x_i))*(-1)=\sum_{i=1}^n(f(x_i)-y_i)=0$

? ? 则 $\frac{\sum_{i=1}^nf(x_i)}{n}=\frac{\sum_{i=1}^{n}y_i}{n}$ ?可令? $f(x_i)=\frac{\sum_{i=1}^{n}y_i}{n}$

?由以上公式可得，当初始化为均值时，可以使损失函数最小

2. 构建第1个弱学习器，根据负梯度的计算方法得到下表

当以1.5为分割点，拟合负梯度为-1.75，-1.61，-1.4，-0.91，…，1.74
- 左子树均值为-1.75，右子树均值为( - 1.61 - 1.40 - 0.91 - 0.51 - 0.26 + 1.59 + 1.39 + 1.69 + 1.74 ) / 9=0.19
- 平方损失：左子树0+右子树(-1.61-0.19)2 + (-1.40-0.19)2 + (-0.91-0.19)2 + (-0.51-0.19)2 +(-0.26-0.19)2 +(1.59-0.19)2 + (1.39-0.19)2 + (1.69-0.19)2 + (1.74-0.19)2 =15.72308
以次把其它点作为分割点，并求损失函数

3. 构建第2个弱学习器，以3.5 作为切分点时，平方损失最小，此时得到第2棵决策树

API

# 1 初始化弱学习器（目标值的均值作为预测值）
# 2 迭代构建学习器，每一个学习器拟合上一个学习器的负梯度
# 3 直到达到指定的学习器个数
# 4 当输入未知样本时，将所有弱学习器的输出结果组合起来作为强学习器的输出
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import GridSearchCV, train_test_split
import pandas as pd
titanic_df = pd.read_csv('titanic/train.csv')
X = titanic_df[['Pclass','Age','Sex']]
y = titanic_df['Survived']
# 性别编码
X = pd.get_dummies(X) 
# 年龄进行缺失值填充
X['Age'].fillna(X['Age'].mean(),inplace = True)
# 训练集测试集划分
X_train, X_test, y_train, y_test = train_test_split(X,y,stratify=y,random_state=66)
gboost_classifier = GradientBoostingClassifier()
parmas = {"n_estimators": [50,100,150], "max_depth": [2,3,5,8,10],'learning_rate':[0.1,0.3,0.5,0.7,0.9]}
# 交叉验证和网格搜索 寻找最优的超参数组合
gs_estimator = GridSearchCV(gboost_classifier,param_grid=parmas,cv=4)
gs_estimator.fit(X_train,y_train)

文章来源:https://blog.csdn.net/qq_31754023/article/details/135543233
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！