XGBOOST(Extreme Gradient Boosting)算法原理详细总结

2023-10-24 07:50

本文主要是介绍XGBOOST(Extreme Gradient Boosting)算法原理详细总结,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

        上篇我们对传统的GBDT算法原理进行了探讨,本篇我们来探讨一个具有王者地位的算法:XGBOOST(Extreme Gradient Boosting
)。XGBOOST是来自于华盛顿大学的一个研究项目,2016年由陈天奇和Carlos Guestrin在KDD上发表:XGBoost: A Scalable Tree Boosting System。自此之后,XGBOOST不仅在kaggle比赛中赢得一席之地,而且也推动了工业领域的一些前沿应用的发展。XGBOOST是我们处理中小型结构化数据必须要掌握的一个杀手锏。
        本篇我们主要参考陈天奇博士介绍XGBOOST的PPT:Boosted Trees 。

1)CART回归树

        CART回归树既可以处理分类任务又可以处理回归任务。CART算法对训练样本集的每个特征递归的进行二分判断,将特征空间划分为有限的单元,每个单元具有一定的权重。简单的可以认为,CART回归树是一个叶子节点具有权重的二叉决策树。CART回归树有两个特点:

  • 决策规则和决策树是一样的;
  • 决策树的每个叶子节点都包含一个权重;

下图就是一个回归决策树的示例:
在这里插入图片描述
        假如某决策树的叶子节点数目为 T T T,每个叶子节点的权重为 w → = { w 1 , w 2 , . . . w T } \overrightarrow{w}=\left\{w_1,w_2,...w_T\right\} w ={w1,w2,...wT},样本 x x x落在叶节点 q q q中,决策树模型 f ( x ) f(x) f(x)可以定义为:
f t ( x ) = w q ( x ) w ∈ w → , q : R d → { 1 , 2 , . . . T } f_t(x) = w_{q(x)} \quad w \in \overrightarrow{w},q:R^d\rightarrow \left\{1,2,...T\right\} ft(x)=wq(x)ww ,q:Rd{1,2,...T}
        从上式中可以看出,决策树的两个核心为:树的结构 q q q,叶节点的权重 w w w。确定树的结构和叶节点的权重便可以确定一颗决策树。
        在决策树算法原理中我们了解到,决策树比较容易过拟合,因此会对决策树进行剪枝操作。那么我们该如何衡量决策树的复杂度呢?我们可以使用,树的深度,叶节点数量,叶子节点权重的 L 2 L2 L2正则等。这里我们使用叶节点的数量和叶子节点权重的 L 2 L2 L2正则表示决策树模型的复杂度,数学表达式为:
Ω ( f t ) = γ T + 1 2 λ ∑ j = 1 T w j 2 \Omega(f_t) =\gamma T+\frac{1}{2} \lambda \sum_{j=1}^Tw_j^2 Ω(ft)=γT+21λj=1Twj2
其中, T T T为叶节点的个数, w w w为叶节点所对应的权重, γ \gamma γ为收缩系数, λ \lambda λ L 2 L2 L2平滑系数。下图即为一个决策树模型复杂度的示例:
在这里插入图片描述

2)XGBOOST目标函数

        XGBOOST基于Boosting框架,它采用的是前向优化算法,即从前往后,逐渐建立基模型来优化逼近目标函数,具体过程如下:
y ^ i ( 0 ) = 0 \hat y_i^{(0)}=0 y^i(0)=0
y ^ i ( 1 ) = f 1 ( x i ) = y ^ i ( 0 ) + f 1 ( x i ) \hat y_i^{(1)}=f_1(x_i)=\hat y_i^{(0)} +f_1(x_i) y^i(1)=f1(xi)=y^i(0)+f1(xi)
y ^ i ( 2 ) = f 1 ( x i ) + f 2 ( x i ) = y ^ i ( 1 ) + f 2 ( x i ) \hat y_i^{(2)}=f_1(x_i) + f_2(x_i)=\hat y_i^{(1)} +f_2(x_i) y^i(2)=f1(xi)+f2(xi)=y^i(1)+f2(xi)
. . . ... ...
y ^ i ( t ) = ∑ k = 1 t f k ( x i ) = y ^ i ( t − 1 ) + f t ( x i ) \hat y_i^{(t)}=\sum_{k=1}^tf_k(x_i)=\hat y_i^{(t-1)} +f_t(x_i) y^i(t)=k=1tfk(xi)=y^i(t1)+ft(xi)
        从上式中,我们可以看出,每一步我们都是要训练一个新的基模型 f t ( x i ) f_t(x_i) ft(xi),那么我们的目标就是让训练的新模型使得误差最小,即目标函数为:
O b j ( t ) = ∑ i = 1 n l ( y i , y ^ i ) + ∑ i = 1 t Ω ( f i ) Obj^{(t)}=\sum_{i=1}^nl(y_i,\hat y_i) +\sum_{i=1}^t\Omega(f_i) Obj(t)=i=1nl(yi,y^i)+i=1tΩ(fi)
= ∑ i = 1 n l ( y i , y ^ i ( t − 1 ) + f t ( x i ) ) + Ω ( f t ) + c o n s t a n t =\sum_{i=1}^nl(y_i,\hat y_i^{(t-1)} +f_t(x_i))+\Omega(f_t)+constant =i=1nl(yi,y^i(t1)+ft(xi))+Ω(ft)+constant
其中 Ω ( f t ) \Omega(f_t) Ω(ft)为模型复杂度,用来防止模型过拟合,平衡模型偏差和方差的。
        由泰勒二阶展开式可知:
f ( x + Δ x ) ≈ f ( x ) + f ′ ( x ) Δ x + 1 2 f ′ ′ ( x ) Δ x 2 f(x+\Delta x)\approx f(x)+f'(x)\Delta x+\frac{1}{2}f''(x)\Delta x^2 f(x+Δx)f(x)+f(x)Δx+21f

这篇关于XGBOOST(Extreme Gradient Boosting)算法原理详细总结的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/273777

相关文章

Python pandas库自学超详细教程

《Pythonpandas库自学超详细教程》文章介绍了Pandas库的基本功能、安装方法及核心操作,涵盖数据导入(CSV/Excel等)、数据结构(Series、DataFrame)、数据清洗、转换... 目录一、什么是Pandas库(1)、Pandas 应用(2)、Pandas 功能(3)、数据结构二、安

Apache Ignite 与 Spring Boot 集成详细指南

《ApacheIgnite与SpringBoot集成详细指南》ApacheIgnite官方指南详解如何通过SpringBootStarter扩展实现自动配置,支持厚/轻客户端模式,简化Ign... 目录 一、背景:为什么需要这个集成? 二、两种集成方式(对应两种客户端模型) 三、方式一:自动配置 Thick

Python对接支付宝支付之使用AliPay实现的详细操作指南

《Python对接支付宝支付之使用AliPay实现的详细操作指南》支付宝没有提供PythonSDK,但是强大的github就有提供python-alipay-sdk,封装里很多复杂操作,使用这个我们就... 目录一、引言二、准备工作2.1 支付宝开放平台入驻与应用创建2.2 密钥生成与配置2.3 安装ali

Spring Security 单点登录与自动登录机制的实现原理

《SpringSecurity单点登录与自动登录机制的实现原理》本文探讨SpringSecurity实现单点登录(SSO)与自动登录机制,涵盖JWT跨系统认证、RememberMe持久化Token... 目录一、核心概念解析1.1 单点登录(SSO)1.2 自动登录(Remember Me)二、代码分析三、

2025版mysql8.0.41 winx64 手动安装详细教程

《2025版mysql8.0.41winx64手动安装详细教程》本文指导Windows系统下MySQL安装配置,包含解压、设置环境变量、my.ini配置、初始化密码获取、服务安装与手动启动等步骤,... 目录一、下载安装包二、配置环境变量三、安装配置四、启动 mysql 服务,修改密码一、下载安装包安装地

在macOS上安装jenv管理JDK版本的详细步骤

《在macOS上安装jenv管理JDK版本的详细步骤》jEnv是一个命令行工具,正如它的官网所宣称的那样,它是来让你忘记怎么配置JAVA_HOME环境变量的神队友,:本文主要介绍在macOS上安装... 目录前言安装 jenv添加 JDK 版本到 jenv切换 JDK 版本总结前言China编程在开发 Java

Spring Boot Actuator应用监控与管理的详细步骤

《SpringBootActuator应用监控与管理的详细步骤》SpringBootActuator是SpringBoot的监控工具,提供健康检查、性能指标、日志管理等核心功能,支持自定义和扩展端... 目录一、 Spring Boot Actuator 概述二、 集成 Spring Boot Actuat

如何在Java Spring实现异步执行(详细篇)

《如何在JavaSpring实现异步执行(详细篇)》Spring框架通过@Async、Executor等实现异步执行,提升系统性能与响应速度,支持自定义线程池管理并发,本文给大家介绍如何在Sprin... 目录前言1. 使用 @Async 实现异步执行1.1 启用异步执行支持1.2 创建异步方法1.3 调用

在MySQL中实现冷热数据分离的方法及使用场景底层原理解析

《在MySQL中实现冷热数据分离的方法及使用场景底层原理解析》MySQL冷热数据分离通过分表/分区策略、数据归档和索引优化,将频繁访问的热数据与冷数据分开存储,提升查询效率并降低存储成本,适用于高并发... 目录实现冷热数据分离1. 分表策略2. 使用分区表3. 数据归档与迁移在mysql中实现冷热数据分

Spring Boot 与微服务入门实战详细总结

《SpringBoot与微服务入门实战详细总结》本文讲解SpringBoot框架的核心特性如快速构建、自动配置、零XML与微服务架构的定义、演进及优缺点,涵盖开发环境准备和HelloWorld实战... 目录一、Spring Boot 核心概述二、微服务架构详解1. 微服务的定义与演进2. 微服务的优缺点三