python数据分析——认识GBR梯度提升回归模型

2023-10-29 11:30

本文主要是介绍python数据分析——认识GBR梯度提升回归模型,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

GBR——Gradient boosting regression——梯度提升回归模型

目 录

1 Boosting

   集成学习,Boosting与Bagging的区别

2 Gradient Boosting算法

   算法思想,算法实现,残差与负梯度

 3 终极组合GBR


Boosting

Boosting是一种机器学习算法,常见的机器学习算法有:

决策树算法、朴素贝叶斯算法、支持向量机算法、随机森林算法、人工神经网络算法

Boosting与Bagging算法(回归算法)、关联规则算法、EM(期望最大化)算法、深度学习

1.1 集成学习

背景

我们希望训练得到的模型是一个各方面都稳定表现良好的模型,但是实际情况中得到的在某方面偏好的模型。集成学习则可以通过多个学习器相结合,来获得比单一学习器更优越的泛化性能。

原理

一般集成学习会通过重采样获得一定数量的样本,然后训练多个弱学习器,采用投票法,即少数服从多数原则来选择分类结果,当少数学习器出现错误时,也可以通过多数学习器来纠正结果。

分类

1)个体学习器之间存在较强的依赖性,必须串行生成学习器:boosting类算法;

2) 个体学习器之间不存在强依赖关系,可以并行生成学习器:Bagging类算法

1.2 Boosting与Bagging区别

Boosting

种通用的增强基础算法性能的回归分析算法。它可以将弱学习算法提高为强学习算法,可以应用到其它基础回归算法,如线性回归、神经网络等,来提高精度。

Boosting由于各基学习器之间存在强依赖关系,因此只能串行处理,也就是说Boosting实际上是个迭代学习的过程。

Boosting的工作机制为:

1) 先从初始训练集中训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器处理不当的样本在后续的训练过程中受到更多关注;
2) 然后基于调整后的样本分布来训练下一个基学习器;  
3) 如此重复,直到基学习器数目达到事先自定的值 T ,然后将这 T 个基学习器进行加权结合。

 Bagging

首先从数据集中采样出T个数据集,然后基于这T个数据集,每个训练出一个基分类器,再将这些基分类器进行组合做出预测。Bagging在做预测时,对于分类任务,使用简单的投票法。对于回归任务使用简单平均法。若分类预测时出现两个类票数一样时,则随机选择一个。Bagging非常适合并行处理。

2 Gradient Boosting算法

任何监督学习算法的目标是定义一个损失函数并将其最小化。

Gradient Boosting 的基本思想是:串行地生成多个弱学习器,每个弱学习器的目标是拟合先前累加模型的损失函数的负梯度,使加上该弱学习器后的累积模型损失往负梯度的方向减少。

举个简单的例子

假设有个样本真实值为 10,第一个弱学习器拟合结果为7,则残差为10-7=3

使残差 3 作为下一个学习器的拟合目标,第二个弱学习其拟合结果为2

则这两个弱学习器组合而成的 Boosting 模型对于样本的预测为7+2=9

以此类推可以继续增加弱学习器以提高性能。

和其他boost方法一样,梯度提升方法也是通过迭代的方法联合弱”学习者”联合形成一个强学习者。

2.1 算法思想

2.2 算法实现

1)初始化模型函数

2)For m = 1 to M:

使用损失函数的负梯度在当前模型 Fm-1(x)上的值近似代替残差:

使用基学习器 h(x)拟合近似的残差值:

计算最优的ɤ:

3)更新模型 :

4)返回Fm(x)

2.3 残差与负梯度

 

 3 终极组合GBR

GBR就是弱学习器是回归算法。

常见的回归算法:

线性回归(Linear Regression

逻辑回归(Logistic Regression

多项式回归(Polynomial Regression

逐步回归(Stepwise Regression

岭回归(Ridge Regression

套索回归(Lasso Regression

弹性回归(ElasticNet Regression

其他GB算法:

GBRT (Gradient BoostRegression Tree)

梯度提升回归树

GBDT (Gradient BoostDecision Tree)

梯度提升决策树

这篇关于python数据分析——认识GBR梯度提升回归模型的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/300328

相关文章

Python FastMCP构建MCP服务端与客户端的详细步骤

《PythonFastMCP构建MCP服务端与客户端的详细步骤》MCP(Multi-ClientProtocol)是一种用于构建可扩展服务的通信协议框架,本文将使用FastMCP搭建一个支持St... 目录简介环境准备服务端实现(server.py)客户端实现(client.py)运行效果扩展方向常见问题结

详解如何使用Python构建从数据到文档的自动化工作流

《详解如何使用Python构建从数据到文档的自动化工作流》这篇文章将通过真实工作场景拆解,为大家展示如何用Python构建自动化工作流,让工具代替人力完成这些数字苦力活,感兴趣的小伙伴可以跟随小编一起... 目录一、Excel处理:从数据搬运工到智能分析师二、PDF处理:文档工厂的智能生产线三、邮件自动化:

Python实现自动化Word文档样式复制与内容生成

《Python实现自动化Word文档样式复制与内容生成》在办公自动化领域,高效处理Word文档的样式和内容复制是一个常见需求,本文将展示如何利用Python的python-docx库实现... 目录一、为什么需要自动化 Word 文档处理二、核心功能实现:样式与表格的深度复制1. 表格复制(含样式与内容)2

python获取cmd环境变量值的实现代码

《python获取cmd环境变量值的实现代码》:本文主要介绍在Python中获取命令行(cmd)环境变量的值,可以使用标准库中的os模块,需要的朋友可以参考下... 前言全局说明在执行py过程中,总要使用到系统环境变量一、说明1.1 环境:Windows 11 家庭版 24H2 26100.4061

Python中文件读取操作漏洞深度解析与防护指南

《Python中文件读取操作漏洞深度解析与防护指南》在Web应用开发中,文件操作是最基础也最危险的功能之一,这篇文章将全面剖析Python环境中常见的文件读取漏洞类型,成因及防护方案,感兴趣的小伙伴可... 目录引言一、静态资源处理中的路径穿越漏洞1.1 典型漏洞场景1.2 os.path.join()的陷

Python数据分析与可视化的全面指南(从数据清洗到图表呈现)

《Python数据分析与可视化的全面指南(从数据清洗到图表呈现)》Python是数据分析与可视化领域中最受欢迎的编程语言之一,凭借其丰富的库和工具,Python能够帮助我们快速处理、分析数据并生成高质... 目录一、数据采集与初步探索二、数据清洗的七种武器1. 缺失值处理策略2. 异常值检测与修正3. 数据

Python中bisect_left 函数实现高效插入与有序列表管理

《Python中bisect_left函数实现高效插入与有序列表管理》Python的bisect_left函数通过二分查找高效定位有序列表插入位置,与bisect_right的区别在于处理重复元素时... 目录一、bisect_left 基本介绍1.1 函数定义1.2 核心功能二、bisect_left 与

Python使用Tkinter打造一个完整的桌面应用

《Python使用Tkinter打造一个完整的桌面应用》在Python生态中,Tkinter就像一把瑞士军刀,它没有花哨的特效,却能快速搭建出实用的图形界面,作为Python自带的标准库,无需安装即可... 目录一、界面搭建:像搭积木一样组合控件二、菜单系统:给应用装上“控制中枢”三、事件驱动:让界面“活”

VSCode设置python SDK路径的实现步骤

《VSCode设置pythonSDK路径的实现步骤》本文主要介绍了VSCode设置pythonSDK路径的实现步骤,包括命令面板切换、settings.json配置、环境变量及虚拟环境处理,具有一定... 目录一、通过命令面板快速切换(推荐方法)二、通过 settings.json 配置(项目级/全局)三、

Python struct.unpack() 用法及常见错误详解

《Pythonstruct.unpack()用法及常见错误详解》struct.unpack()是Python中用于将二进制数据(字节序列)解析为Python数据类型的函数,通常与struct.pa... 目录一、函数语法二、格式字符串详解三、使用示例示例 1:解析整数和浮点数示例 2:解析字符串示例 3:解