【机器学习】模型参数优化工具：Optuna使用分步指南（附XGB/LGBM调优代码）

本文主要是介绍【机器学习】模型参数优化工具：Optuna使用分步指南（附XGB/LGBM调优代码），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

在这里插入图片描述

常用的调参方式和工具包

常用的调参方式包括网格搜索(Grid Search)、**随机搜索(Random Search)和贝叶斯优化(Bayesian Optimization)**等。

工具包方面，Scikit-learn提供了GridSearchCV和RandomizedSearchCV等用于网格搜索和随机搜索的工具。另外，有一些专门用于超参数优化的工具包，如Optuna、Hyperopt等。

这些方法各自有优缺点。网格搜索和随机搜索易于理解和实现，但在超参数空间较大时计算代价较高。贝叶斯优化考虑了不同参数之间的关系，可以在较少实验次数内找到较优解，但实现较为复杂。

Optuna是什么？

Optuna是一个基于贝叶斯优化的超参数优化框架。它的目标是通过智能的搜索策略，尽可能少的实验次数找到最佳超参数组合。Optuna支持各种机器学习框架，包括Scikit-learn、PyTorch和TensorFlow等。

Optuna的优势和劣势

个人使用体验：比起网格搜索和随机搜索，Optuna最明显的优势就是快。虽然最后的提升效果未必有前两种好，但是在整体效率上来看，Optuna能够大大减少调参时间。

优势：

智能搜索策略： Optuna使用TPE（Tree-structured Parzen Estimator）算法进行贝叶斯优化，能够更智能地选择下一组实验参数，从而加速超参数搜索。
轻量级： Optuna的设计简单而灵活，易于集成到现有的机器学习项目中。
可视化支持： 提供结果可视化工具，帮助用户直观地了解实验过程和结果。
并行优化： Optuna支持并行优化，能够充分利用计算资源，提高搜索效率。

劣势：

适用范围： 对于超参数空间较小或者问题较简单的情况，Optuna的优势可能不如其他方法显著。

如何使用Optuna进行调参？

使用Optuna进行调参的基本步骤如下：

定义超参数搜索空间： 使用Optuna的API定义超参数的搜索范围，例如学习率、层数等。
定义目标函数： 编写一个目标函数，用于评估给定超参数组合的模型性能。
运行Optuna优化： 使用Optuna的optimize函数运行优化过程，选择适当的搜索算法和优化目标。
获取最佳超参数： 通过Optuna提供的API获取找到的最佳超参数组合。

调参代码示例

主要分为几个步骤：

定义目标函数： 1）定义参数搜索范围 2）定义、训练和评估模型
运行Optuna优化
获取最佳超参数

1. SVM调优例子

以下是一个使用Optuna进行超参数优化的简单示例，假设我们使用Scikit-learn中的SVM进行分类：

import optuna
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC# 载入数据
data = datasets.load_iris()
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2)# 定义目标函数
def objective(trial):# 定义超参数搜索范围C = trial.suggest_loguniform('C', 1e-5, 1e5)gamma = trial.suggest_loguniform('gamma', 1e-5, 1e5)# 构建SVM模型model = SVC(C=C, gamma=gamma)# 训练和评估模型model.fit(X_train, y_train)accuracy = model.score(X_test, y_test)return accuracy# 运行Optuna优化
study = optuna.create_study(direction='maximize')
study.optimize(objective, n_trials=100)# 获取最佳超参数
best_params = study.best_params
print("最佳超参数：", best_params)

2.LGBM调优例子

def objective(trial):params = {'objective': 'multiclass','metric': 'multi_logloss',  # Use 'multi_logloss' for evaluation'boosting_type': 'gbdt','num_class': 3,  # Replace with the actual number of classes'num_leaves': trial.suggest_int('num_leaves', 2, 256),'learning_rate': trial.suggest_loguniform('learning_rate', 0.001, 0.1),'feature_fraction': trial.suggest_uniform('feature_fraction', 0.1, 1.0),'bagging_fraction': trial.suggest_uniform('bagging_fraction', 0.1, 1.0),'bagging_freq': trial.suggest_int('bagging_freq', 1, 10),'min_child_samples': trial.suggest_int('min_child_samples', 5, 100),}model = lgb.LGBMClassifier(**params)model.fit(X_train, y_train)y_pred = model.predict_proba(X_val)    loss = log_loss(y_val, y_pred)return lossstudy = optuna.create_study(direction='minimize')
study.optimize(objective, n_trials=50,show_progress_bar=True)# Get the best parameters
best_params = study.best_params
print(f"Best Params: {best_params}")

3.XGB调优例子

def objective(trial):params = {'objective': 'multi:softprob',  # 'multi:softprob' for multiclass classification'num_class': 3,  # Replace with the actual number of classes'booster': 'gbtree','eval_metric': 'mlogloss',  # 'mlogloss' for evaluation'max_depth': trial.suggest_int('max_depth', 2, 10),'learning_rate': trial.suggest_loguniform('learning_rate', 0.001, 0.1),'subsample': trial.suggest_uniform('subsample', 0.1, 1.0),'colsample_bytree': trial.suggest_uniform('colsample_bytree', 0.1, 1.0),'min_child_weight': trial.suggest_int('min_child_weight', 1, 10),}model = XGBClassifier(**params)model.fit(X_train, y_train)y_pred = model.predict_proba(X_val)loss = log_loss(y_val, y_pred)return lossstudy = optuna.create_study(direction='minimize')
study.optimize(objective, n_trials=50, show_progress_bar=True)# Get the best parameters
best_params = study.best_params
print(f"Best Params: {best_params}")