梯度提升决策树（Gradient Boosting Decision Trees，GBDT）

发布时间：2024年01月09日

梯度提升决策树（Gradient Boosting Decision Trees，GBDT）

? 提升树是以分类树或回归树为基本分类器的提升方法。提升树被认为是统计学习中性能最好的方法之一。

? 提升方法实际采用加法模型(即基函数的线性组合)与前向分步算法。以决策树为基函数的提升方法称为提升树（boosting tree）。对分类问题决策树是二叉分类树，对回归问题决策树是二叉回归树。

---------------------------------------------------------------------------------------------------------------------------------------

输入：线性可分训练数据集 $T= \{(x_1,y_1), (x_2,y_2),…, (x_N,y_N)\}$

? 其中， $x_i∈X=R^n,y_i∈Y, i = 1,2,…,N$ ；弱学习算法

输出：提升树 $f_M(x)$

优化问题：

? 不同问题的提升树学习算法，其主要区别在于使用的损失函数不同。回归问题：平方误差损失函数；分类问题：指数损失函数。

? $f_{m-1}(x)$ 为当前模型，通过经验风险极小化确定下一颗决策树的参数 $\Theta_m$ ：
$\hat\Theta_m=arg\ \underset{\Theta_m}{min}\sum_{i=1}^NL(y_i,f_m(x))\\ \\ →\hat\Theta_m=arg\ \underset{\Theta_m}{min}\sum_{i=1}^NL(y_i,f_{m-1}(x_i)+T(x;\Theta_m))$
回归问题：
$\hat\Theta_m=arg\ \underset{\Theta_m}{min}\sum_{i=1}^N(y_i-f_{m}(x))^2\\ \\ →\hat\Theta_m=arg\ \underset{\Theta_m}{min}\sum_{i=1}^N(y_i-f_{m-1}(x)-T(x;\Theta_m))^2\\ \\ →\hat\Theta_m=arg\ \underset{\Theta_m}{min}\sum_{i=1}^N(r-T(x;\Theta_m))^2,r=y-f_{m-1}(x)$

分类问题：
$\hat\Theta_m=arg\ \underset{\Theta_m}{min}\sum_{i=1}^Nexp(-y_if_m(x))\\ \\ →\hat\Theta_m=arg\ \underset{\Theta_m}{min}\sum_{i=1}^Nexp[-y_i(f_{m-1}(x)+T(x;\Theta_m))]$
---------------------------------------------------------------------------------------------------------------------------------------

? 提升树模型可以表示为决策树的加法模型：
$f_M(x)=\sum_{m=1}^MT(x;\Theta_m)$
其中， $T(x;\Theta_m)$ 表示决策树， $\Theta_m$ 为决策树的参数，M为树的个数。

? 首先确定初始提升树 $f_0(x)=0$ ，第m步的模型是：
$f_{m}(x)=f_{m-1}(x)+T(x;\Theta_m)$

回归问题的提升树

? 已知一个训练数据集 $T= \{(x_1,y_1), (x_2,y_2),…, (x_N,y_N)\}$ 其中， $x_i∈X=R^n,y_i∈Y, i = 1,2,…,N$ ；X 为输入空间，Y 为输出空间。

? 如果将输入空间划分为J 个互不相交的区域 $R_1,R_2,...,R_J$ ，并且在每个区域上确定输出的常量 $c_j$ ，那么树可以表示为：
$T(x;\Theta)=\sum_{j=1}^Jc_jI(x∈R_j)$
其中，参数 $\Theta=\{(R_1,c_1),(R_2,c_2),...,(R_J,c_J)\}$ 表示树的区域划分和各个区域上的常数。J 是回归树的复杂度即叶节点个数。

回归问题的前向分布算法

$f_0(x)=0\\ \\ f_m(x)=f_{m-1}(x)+T(x;\Theta_m),\ \ \ m=1,2,...,M\\ \\ f_M(x)=\sum_{m=1}^MT(x;\Theta_m)$

第m步时，当前模型是 $f_{m-1}(x)$ ，要求解以下的式子（回归问题采用均方误差损失函数）得到 $\hat\Theta_m$ ：
$\hat\Theta_m=arg\ \underset{\Theta_m}{min}\sum_{i=1}^N(y_i-f_{m}(x))^2\\ \\ →\hat\Theta_m=arg\ \underset{\Theta_m}{min}\sum_{i=1}^N(y_i-f_{m-1}(x)-T(x;\Theta_m))^2\\ \\ →\hat\Theta_m=arg\ \underset{\Theta_m}{min}\sum_{i=1}^N(r-T(x;\Theta_m))^2,r=y-f_{m-1}(x)$
算法流程：

输入：线性可分训练数据集 $T= \{(x_1,y_1), (x_2,y_2),…, (x_N,y_N)\}$

? 其中， $x_i∈X=R^n,y_i∈Y, i = 1,2,…,N$ ；弱学习算法

输出：提升树 $f_M(x)$

（1）初始化 $f_0(x)= 0$ 。

（2）对m=1，2，…，M。

? （a）按照 $T(x;\Theta)=\sum_{j=1}^Jc_jI(x∈R_j)$ 计算残差：
$r_{mi}=y_i-f_{m-1}(x_i),\ \ \ i=1,2,...,N$
? （b）拟合残差 $r_{mi}$ 学习一个回归树，得到 $T(x;\Theta_m )$

? （c）更新 $f_m(x)=f_{m-1}(x)+T(x;\Theta_m)$

（3）得到回归问题的提升树
$f_M(x)=\sum_{m=1}^MT(x;\Theta_m)$

梯度提升

? 提升树算法利用加法模型与前向分布算法实现学习的优化过程。当损失函数时平方损失和指数损失函数的时候，每一步的优化时很简单的。但是对于一般损失函数而言，往往每一步优化都不是容易的。

? 其关键是利用损失函数的负梯度在当前模型的值
$-[\frac{\partial L(y,f(x_i))}{\partial f(x_i)}]_{f(x)=f_{m-1}(x)}$
作为回归问题提升树算法中的残差的近似值，拟合一个回归树。

算法流程：

输入：线性可分训练数据集 $T= \{(x_1,y_1), (x_2,y_2),…, (x_N,y_N)\}$

? 其中， $x_i∈X=R^n,y_i∈Y, i = 1,2,…,N$ ；损失函数 $L (y, f (x))$ ;

输出：提升树 $\hat f(x)$

（1）初始化 $f_0(x)= arg \underset{c}{min}\sum_{i=1}^NL(y_i,c)$ 。

（2）对m=1，2，…，M。

? （a）对i=1，2，…，N，计算：
$r_{mi}=-[\frac{\partial L(y,f(x_i))}{\partial f(x_i)}]_{f(x)=f_{m-1}(x)}$
? （b）拟合残差 $r_{mi}$ 学习一个回归树，得到第m颗树的叶节点区域 $R_{mj},j=1,2,...,J$

? （c）对j=1，2，…，J，计算
$c_{mj}=arg\ \underset{c}{min}\sum_{x_i∈R_{mj}}L(y_i,f_{m-1}(x_i)+c)$
? （d）更新 $f_m(x)=f_{m-1}(x)+\sum_{j=1}^Jc_{mj}I(x∈R_{mj})$

（3）得到回归树
$\hat f(x)=f_M(x)=\sum_{m=1}^M\sum_{j=1}^Jc_{mj}I(x∈R_{mj})$

文章来源:https://blog.csdn.net/Gaowang_1/article/details/135479070
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！