【解决方案】成功解决将XGBoost中plot_importance绘图时出现的f0、f1、f2、f3、f4、f5等改为对应特征的字段名

本文主要是介绍【解决方案】成功解决将XGBoost中plot_importance绘图时出现的f0、f1、f2、f3、f4、f5等改为对应特征的字段名,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1.问题描述

使用XGBoost中的plot_importance绘制特征重要性图时,纵坐标并不是特征名,而是f0、f1、f2、f3、f4、f5…fn等一系列符号。

2.问题结果

成功解决将XGBoost中plot_importance绘图时出现的f0、f1、f2、f3、f4、f5等改为对应特征的字段名。

3.解决方案

3.1 项目描述

使用XGBoost模型训练sklearn中的乳腺癌数据(二分类,这篇文章中,介绍过此数据集:【ML】机器学习数据集:sklearn中分类数据集介绍),对训练后的模型中的特征重要性进行排序,即可视化模型中的特征重要性。

3.2 项目初始代码

# -*- coding: utf-8 -*-
"""
Created on Thu Sep 29 13:47:06 2022@author: augustqi
"""# 导入需要的包
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_auc_score, accuracy_score, auc, recall_score, precision_score, f1_score
from sklearn.metrics import roc_curve, precision_recall_curve, average_precision_score
from xgboost import XGBClassifier
from xgboost import plot_importance# 加载数据集,这里直接使用datasets包里面的乳腺癌分类数据(二分类)
cancer = datasets.load_breast_cancer()X = cancer.data
y = cancer.target# 输出数据集的形状,该数据集里面有569个样本,每个样本有30个特征(569, 30)
print(X.shape)
# 输出标签的个数为 569
print(y.shape)# 使用train_test_split()函数对训练集和测试集进行划分,第一个参数是数据集特征,第二个参数是标签,第三个为测试集占总样本的百分比
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 6)# 使用XGBoost进行训练
model = XGBClassifier()
model.fit(x_train,y_train)# 绘制重要性曲线, max_num_feature参数设置输出前30重要的特征,【数据集中共有30个特征】
fig, ax = plt.subplots(figsize=(10,8))
plot_importance(model, max_num_features=30, ax=ax)
plt.savefig("demo_plot_importance.png", dpi=600)
plt.show()# 类别值
y_pred = model.predict(x_test)# 输出ACC的值
acc = accuracy_score(y_test, y_pred)
print("acc:", acc)
# 输出recall值
re = recall_score(y_test, y_pred)
print("recall:", re)
# 输出precision
pre = precision_score(y_test, y_pred)
print("precision:", pre)
# 输出f1 score
f1 = f1_score(y_test, y_pred)
print("f1 score:", f1)# 概率得分
y_score = model.predict_proba(x_test)[:,1]# 直接计算auc的值
auc_1 = roc_auc_score(y_test, y_score)
print("auc_1:", auc_1)# 绘制ROC曲线
fpr, tpr, thresholds_roc = roc_curve(y_test, y_score)
# 间接计算auc的值
auc_2 = auc(fpr, tpr) 
print("auc_2:", auc_2)# 间接计算auc的值的好处,就是可以知道fpr和tpr,绘制曲线
plt.plot(fpr,tpr,'r--', label='auc=%0.4f'%auc_2)
plt.title("ROC Curve")
plt.legend()
plt.savefig("demo_roc.png",dpi=600)
plt.show()# 绘制PR曲线
precision, recall, thresholds_pr = precision_recall_curve(y_test, y_score)
aupr = auc(recall, precision)
print("aupr:", aupr)
plt.plot(recall, precision, 'g--', label='aupr=%0.4f'%aupr)
plt.title("PR Curve")
plt.legend()
plt.savefig("demo_pr.png",dpi=600)
plt.show()

测试集上的一些统计指标:

在这里插入图片描述

ROC曲线:
在这里插入图片描述
PR曲线:

在这里插入图片描述
特征重要性图:

在这里插入图片描述

我们主要看特征重要性图(其他图和统计指标,是我附带送给各位的,不是本文的重点,嘿嘿),输入到XGBoost模型训练的数据共有30维,即30个特征,哪这30个特征分别对模型的影响是多少呢?请往下看。

随着科学技术的发展,机器学习这个黑盒子也在被慢慢打开,XGBoost中提供了一个plot_importance函数用于绘制特征的重要性。从特征重要性图可以看到f0、f1、f2、f3…f29,这些符号对应数据集中的30个特征,但是我们如何将纵坐标的这些符号换成对应的特征名呢?从而可以更直观看到特征的重要性。

我们只需在初始的项目代码中加入:

feature_names = cancer.feature_names
feature_names = list(feature_names)model.get_booster().feature_names = feature_names

然后绘制具有特征名的特征重要性图:

在这里插入图片描述
大功告成,f0、f1、f2、f3…f29成功和数据集中的特征名对应起来了,可以看到worst texture(f21)特征对模型的影响最大。

3.3 项目最终代码

# -*- coding: utf-8 -*-
"""
Created on Thu Sep 29 13:47:06 2022@author: augustqi
"""# 导入需要的包
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_auc_score, accuracy_score, auc, recall_score, precision_score, f1_score
from sklearn.metrics import roc_curve, precision_recall_curve, average_precision_score
from xgboost import XGBClassifier
from xgboost import plot_importance# 加载数据集,这里直接使用datasets包里面的乳腺癌分类数据(二分类)
cancer = datasets.load_breast_cancer()X = cancer.data
y = cancer.target
feature_names = cancer.feature_names
feature_names = list(feature_names)# 输出数据集的形状,该数据集里面有569个样本,每个样本有30个特征(569, 30)
print(X.shape)
# 输出标签的个数为 569
print(y.shape)# 使用train_test_split()函数对训练集和测试集进行划分,第一个参数是数据集特征,第二个参数是标签,第三个为测试集占总样本的百分比
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 6)# 使用XGBoost进行训练
model = XGBClassifier()
model.fit(x_train,y_train)model.get_booster().feature_names = feature_names# 绘制重要性曲线, max_num_feature参数设置输出前30重要的特征,【数据集中共有30个特征】
fig, ax = plt.subplots(figsize=(16,10))
plot_importance(model, max_num_features=30, ax=ax)
plt.savefig("demo_plot_importance.png", dpi=600)
plt.show()# 类别值
y_pred = model.predict(x_test)# 输出ACC的值
acc = accuracy_score(y_test, y_pred)
print("acc:", acc)
# 输出recall值
re = recall_score(y_test, y_pred)
print("recall:", re)
# 输出precision
pre = precision_score(y_test, y_pred)
print("precision:", pre)
# 输出f1 score
f1 = f1_score(y_test, y_pred)
print("f1 score:", f1)# 概率得分
y_score = model.predict_proba(x_test)[:,1]# 直接计算auc的值
auc_1 = roc_auc_score(y_test, y_score)
print("auc_1:", auc_1)# 绘制ROC曲线
fpr, tpr, thresholds_roc = roc_curve(y_test, y_score)
# 间接计算auc的值
auc_2 = auc(fpr, tpr) 
print("auc_2:", auc_2)# 间接计算auc的值的好处,就是可以知道fpr和tpr,绘制曲线
plt.plot(fpr,tpr,'r--', label='auc=%0.4f'%auc_2)
plt.title("ROC Curve")
plt.legend()
plt.savefig("demo_roc.png",dpi=600)
plt.show()# 绘制PR曲线
precision, recall, thresholds_pr = precision_recall_curve(y_test, y_score)
aupr = auc(recall, precision)
print("aupr:", aupr)
plt.plot(recall, precision, 'g--', label='aupr=%0.4f'%aupr)
plt.title("PR Curve")
plt.legend()
plt.savefig("demo_pr.png",dpi=600)
plt.show()

本篇博文,首发在AIexplore微信公众号,内容总体相同,均为原创,特此申明。

参考资料

[1] https://www.cnblogs.com/hellojiaojiao/p/10755878.html
[2] https://zhuanlan.zhihu.com/p/361214293
[3] https://www.lmlphp.com/user/16834/article/item/504015/
[4] https://stackoverflow.com/questions/46943314/xgboost-plot-importance-doesnt-show-feature-names

这篇关于【解决方案】成功解决将XGBoost中plot_importance绘图时出现的f0、f1、f2、f3、f4、f5等改为对应特征的字段名的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/247705

相关文章

qt5cored.dll报错怎么解决? 电脑qt5cored.dll文件丢失修复技巧

《qt5cored.dll报错怎么解决?电脑qt5cored.dll文件丢失修复技巧》在进行软件安装或运行程序时,有时会遇到由于找不到qt5core.dll,无法继续执行代码,这个问题可能是由于该文... 遇到qt5cored.dll文件错误时,可能会导致基于 Qt 开发的应用程序无法正常运行或启动。这种错

C++高效内存池实现减少动态分配开销的解决方案

《C++高效内存池实现减少动态分配开销的解决方案》C++动态内存分配存在系统调用开销、碎片化和锁竞争等性能问题,内存池通过预分配、分块管理和缓存复用解决这些问题,下面就来了解一下... 目录一、C++内存分配的性能挑战二、内存池技术的核心原理三、主流内存池实现:TCMalloc与Jemalloc1. TCM

SpringBoot排查和解决JSON解析错误(400 Bad Request)的方法

《SpringBoot排查和解决JSON解析错误(400BadRequest)的方法》在开发SpringBootRESTfulAPI时,客户端与服务端的数据交互通常使用JSON格式,然而,JSON... 目录问题背景1. 问题描述2. 错误分析解决方案1. 手动重新输入jsON2. 使用工具清理JSON3.

MyBatis Plus 中 update_time 字段自动填充失效的原因分析及解决方案(最新整理)

《MyBatisPlus中update_time字段自动填充失效的原因分析及解决方案(最新整理)》在使用MyBatisPlus时,通常我们会在数据库表中设置create_time和update... 目录前言一、问题现象二、原因分析三、总结:常见原因与解决方法对照表四、推荐写法前言在使用 MyBATis

MySQL 设置AUTO_INCREMENT 无效的问题解决

《MySQL设置AUTO_INCREMENT无效的问题解决》本文主要介绍了MySQL设置AUTO_INCREMENT无效的问题解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参... 目录快速设置mysql的auto_increment参数一、修改 AUTO_INCREMENT 的值。

关于跨域无效的问题及解决(java后端方案)

《关于跨域无效的问题及解决(java后端方案)》:本文主要介绍关于跨域无效的问题及解决(java后端方案),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录通用后端跨域方法1、@CrossOrigin 注解2、springboot2.0 实现WebMvcConfig

Go语言中泄漏缓冲区的问题解决

《Go语言中泄漏缓冲区的问题解决》缓冲区是一种常见的数据结构,常被用于在不同的并发单元之间传递数据,然而,若缓冲区使用不当,就可能引发泄漏缓冲区问题,本文就来介绍一下问题的解决,感兴趣的可以了解一下... 目录引言泄漏缓冲区的基本概念代码示例:泄漏缓冲区的产生项目场景:Web 服务器中的请求缓冲场景描述代码

Java死锁问题解决方案及示例详解

《Java死锁问题解决方案及示例详解》死锁是指两个或多个线程因争夺资源而相互等待,导致所有线程都无法继续执行的一种状态,本文给大家详细介绍了Java死锁问题解决方案详解及实践样例,需要的朋友可以参考下... 目录1、简述死锁的四个必要条件:2、死锁示例代码3、如何检测死锁?3.1 使用 jstack3.2

解决JSONField、JsonProperty不生效的问题

《解决JSONField、JsonProperty不生效的问题》:本文主要介绍解决JSONField、JsonProperty不生效的问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑... 目录jsONField、JsonProperty不生效javascript问题排查总结JSONField

html 滚动条滚动过快会留下边框线的解决方案

《html滚动条滚动过快会留下边框线的解决方案》:本文主要介绍了html滚动条滚动过快会留下边框线的解决方案,解决方法很简单,详细内容请阅读本文,希望能对你有所帮助... 滚动条滚动过快时,会留下边框线但其实大部分时候是这样的,没有多出边框线的滚动条滚动过快时留下边框线的问题通常与滚动条样式和滚动行