【Python】 XGBoost vs LightGBM：两大梯度提升框架的对比

本文主要是介绍【Python】 XGBoost vs LightGBM：两大梯度提升框架的对比，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

原谅把你带走的雨天
在渐渐模糊的窗前
每个人最后都要说再见
原谅被你带走的永远
微笑着容易过一天
也许是我已经老了一点
那些日子你会不会舍不得
思念就像关不紧的门
空气里有幸福的灰尘
否则为何闭上眼睛的时候
又全都想起了
谁都别说
让我一个人躲一躲
你的承诺
我竟然没怀疑过
反反覆覆
要不是当初深深深爱过
我试着恨你
却想起你的笑容
🎵 陈楚生/单依纯《原谅》

在机器学习领域，XGBoost（Extreme Gradient Boosting）和LightGBM（Light Gradient Boosting Machine）是两种非常流行且高效的梯度提升框架。它们在各种数据科学竞赛和实际应用中表现出色，尤其是在处理大规模数据和高维数据时。本文将对XGBoost和LightGBM进行详细对比，帮助你理解它们的优劣和适用场景。

什么是XGBoost和LightGBM？

XGBoost：由Tianqi Chen等人开发，是一种基于梯度提升决策树（GBDT）的开源框架。XGBoost因其高效、准确和可扩展性而受到广泛欢迎。
LightGBM：由微软开发，是另一种基于GBDT的框架。LightGBM以其快速训练速度和低内存占用著称，特别适用于大数据场景。

主要特点对比

速度和性能
训练速度：LightGBM通常比XGBoost更快。这是因为LightGBM采用了基于直方图的算法，减少了数据扫描次数，提高了效率。
内存使用：LightGBM的内存占用通常较低，因为它通过直方图方法和特征捆绑技术减少了内存使用。
算法实现
XGBoost：采用按层生长的决策树（level-wise），即每次分裂所有节点。这种方法可以更好地控制树的结构，但在大数据集上效率较低。
LightGBM：采用按叶子生长的决策树（leaf-wise），即每次选择增益最大的叶子节点进行分裂。这种方法可以生成更深的树，提高模型的准确性，但可能导致过拟合，需要通过设置最大深度或叶子节点数来控制。
特征处理
类别特征：LightGBM能够直接处理类别特征，而XGBoost需要对类别特征进行预处理，如one-hot编码。
缺失值处理：XGBoost和LightGBM都能够自动处理缺失值，但LightGBM在处理大规模数据时表现更好。
并行和分布式计算
并行计算：XGBoost和LightGBM都支持并行计算，但LightGBM在大规模数据集上的分布式计算能力更强。
分布式训练：LightGBM能够更好地支持分布式训练，适用于超大规模数据集。
实际应用对比

数据准备

假设我们有一个客户流失预测的数据集，包含客户特征和是否流失的标注（流失为1，未流失为0）。

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, classification_report# 加载数据
df = pd.read_csv('customer_churn.csv')# 特征和目标变量
X = df.drop('churn', axis=1)
y = df['churn']# 分割数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 数据标准化
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
XGBoost模型训练和评估
python
复制代码
import xgboost as xgb# 转换数据格式为DMatrix
dtrain = xgb.DMatrix(X_train, label=y_train)
dtest = xgb.DMatrix(X_test, label=y_test)# 设置XGBoost参数
params = {'booster': 'gbtree','objective': 'binary:logistic','eval_metric': 'logloss','eta': 0.1,'max_depth': 6,'scale_pos_weight': 80,'subsample': 0.8,'colsample_bytree': 0.8,'seed': 42
}# 训练模型
num_round = 100
bst = xgb.train(params, dtrain, num_round)# 模型预测
y_pred_prob = bst.predict(dtest)
y_pred = (y_pred_prob > 0.5).astype(int)# 评估模型
print(f"XGBoost Accuracy: {accuracy_score(y_test, y_pred)}")
print("XGBoost Classification Report:")
print(classification_report(y_test, y_pred))

LightGBM模型训练和评估

import lightgbm as lgb# 创建LightGBM数据集
train_data = lgb.Dataset(X_train, label=y_train)
test_data = lgb.Dataset(X_test, label=y_test, reference=train_data)# 设置LightGBM参数
params = {'boosting_type': 'gbdt','objective': 'binary','metric': 'binary_logloss','learning_rate': 0.1,'num_leaves': 31,'max_depth': -1,'min_data_in_leaf': 20,'feature_fraction': 0.8,'bagging_fraction': 0.8,'bagging_freq': 5,'lambda_l1': 0.1,'lambda_l2': 0.1,'scale_pos_weight': 80,'verbose': -1
}# 训练模型
num_round = 100
bst = lgb.train(params, train_data, num_round, valid_sets=[test_data], early_stopping_rounds=10)# 模型预测
y_pred_prob = bst.predict(X_test, num_iteration=bst.best_iteration)
y_pred = (y_pred_prob > 0.5).astype(int)# 评估模型
print(f"LightGBM Accuracy: {accuracy_score(y_test, y_pred)}")
print("LightGBM Classification Report:")
print(classification_report(y_test, y_pred))