机器学习模型评估之校准曲线

2024-06-21 01:12

本文主要是介绍机器学习模型评估之校准曲线,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

模型校准曲线(Calibration Curve),也称为可靠性曲线(Reliability Curve)或概率校准曲线(Probability Calibration Curve),是一种评估分类模型输出概率准确性的图形工具。它可以帮助我们理解模型的预测概率是否与实际标签的分布一致。校准曲线通常包括以下步骤:

  1. 计算模型预测概率:对于测试集中的每个样本,模型会输出一个概率值,表示样本属于正类的概率。

  2. 将数据分桶:将这些概率值分成若干个等宽的桶(例如10个桶),每个桶中的样本具有相似的预测概率。

  3. 计算每个桶的平均预测概率和实际正类比例:对于每个桶,计算桶内样本的平均预测概率和实际的正类比例(即标签为正的样本数除以桶内总样本数)。

  4. 绘制校准曲线:将每个桶的平均预测概率作为x轴,实际正类比例作为y轴,绘制散点图。理想情况下,这些点应该接近于一条斜率为1的直线,这表示模型的预测概率与实际标签完全一致。

  5. (可选)绘制理想校准曲线:绘制一条斜率为1的直线,作为理想校准曲线,以便与实际校准曲线进行比较。

在Python中,你可以使用scikit-learn库中的calibration模块来绘制校准曲线。以下是一个使用scikit-learn绘制校准曲线的示例代码:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.calibration import calibration_curve
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.calibration import CalibratedClassifierCV# 生成数据集
X, y = make_classification(n_samples=10000, n_features=20,n_informative=2, n_redundant=10,random_state=42)# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)# 训练模型
# 这里使用RandomForestClassifier作为基础分类器
# 使用CalibratedClassifierCV进行概率校准
clf = RandomForestClassifier(n_estimators=100, random_state=42)
calibrated_clf = CalibratedClassifierCV(clf, method='isotonic', cv=5)clf.fit(X_train, y_train)
calibrated_clf.fit(X_train, y_train)# 获取预测概率
probabilities = clf.predict_proba(X_test)[:, 1]
calibrated_probabilities = calibrated_clf.predict_proba(X_test)[:, 1]# 计算校准曲线
fraction_of_positives, mean_predicted_value = calibration_curve(y_test, probabilities, n_bins=10)
calibrated_fraction_of_positives, calibrated_mean_predicted_value = calibration_curve(y_test, calibrated_probabilities, n_bins=10)# 绘制校准曲线
plt.figure(figsize=(10, 10))
plt.plot(mean_predicted_value, fraction_of_positives, "s-", label="未校准 (Area = %0.2f)" % np.mean(np.abs(fraction_of_positives - mean_predicted_value)))
plt.plot(calibrated_mean_predicted_value, calibrated_fraction_of_positives, "s-", label="校准 (Area = %0.2f)" % np.mean(np.abs(calibrated_fraction_of_positives - calibrated_mean_predicted_value)))# 绘制理想校准曲线
plt.plot([0, 1], [0, 1], "k:", label="完美校准")# 设置图表
plt.xlabel("平均预测概率")
plt.ylabel("实际正类比例")
plt.title('校准曲线')
plt.legend(loc="lower right")
plt.show()

在这个例子中,我们首先创建了一个合成数据集,并使用RandomForestClassifier训练了一个基础分类器。然后,我们使用CalibratedClassifierCV对分类器进行了概率校准。接着,我们计算了测试集上的预测概率,并绘制了校准曲线。最后,我们展示了未校准和校准后的校准曲线,以及理想校准曲线,以便进行比较。

这篇关于机器学习模型评估之校准曲线的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1079792

相关文章

MySQL8 密码强度评估与配置详解

《MySQL8密码强度评估与配置详解》MySQL8默认启用密码强度插件,实施MEDIUM策略(长度8、含数字/字母/特殊字符),支持动态调整与配置文件设置,推荐使用STRONG策略并定期更新密码以提... 目录一、mysql 8 密码强度评估机制1.核心插件:validate_password2.密码策略级

Unity新手入门学习殿堂级知识详细讲解(图文)

《Unity新手入门学习殿堂级知识详细讲解(图文)》Unity是一款跨平台游戏引擎,支持2D/3D及VR/AR开发,核心功能模块包括图形、音频、物理等,通过可视化编辑器与脚本扩展实现开发,项目结构含A... 目录入门概述什么是 UnityUnity引擎基础认知编辑器核心操作Unity 编辑器项目模式分类工程

Python学习笔记之getattr和hasattr用法示例详解

《Python学习笔记之getattr和hasattr用法示例详解》在Python中,hasattr()、getattr()和setattr()是一组内置函数,用于对对象的属性进行操作和查询,这篇文章... 目录1.getattr用法详解1.1 基本作用1.2 示例1.3 原理2.hasattr用法详解2.

Go学习记录之runtime包深入解析

《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,:本文主要介绍Go学习记录之runtime包的... 目录前言:一、runtime包内容学习1、作用:① Goroutine和并发控制:② 垃圾回收:③ 栈和

Android学习总结之Java和kotlin区别超详细分析

《Android学习总结之Java和kotlin区别超详细分析》Java和Kotlin都是用于Android开发的编程语言,它们各自具有独特的特点和优势,:本文主要介绍Android学习总结之Ja... 目录一、空安全机制真题 1:Kotlin 如何解决 Java 的 NullPointerExceptio

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

SpringBoot整合Sa-Token实现RBAC权限模型的过程解析

《SpringBoot整合Sa-Token实现RBAC权限模型的过程解析》:本文主要介绍SpringBoot整合Sa-Token实现RBAC权限模型的过程解析,本文给大家介绍的非常详细,对大家的学... 目录前言一、基础概念1.1 RBAC模型核心概念1.2 Sa-Token核心功能1.3 环境准备二、表结

重新对Java的类加载器的学习方式

《重新对Java的类加载器的学习方式》:本文主要介绍重新对Java的类加载器的学习方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、介绍1.1、简介1.2、符号引用和直接引用1、符号引用2、直接引用3、符号转直接的过程2、加载流程3、类加载的分类3.1、显示

Java学习手册之Filter和Listener使用方法

《Java学习手册之Filter和Listener使用方法》:本文主要介绍Java学习手册之Filter和Listener使用方法的相关资料,Filter是一种拦截器,可以在请求到达Servl... 目录一、Filter(过滤器)1. Filter 的工作原理2. Filter 的配置与使用二、Listen

Spring Security基于数据库的ABAC属性权限模型实战开发教程

《SpringSecurity基于数据库的ABAC属性权限模型实战开发教程》:本文主要介绍SpringSecurity基于数据库的ABAC属性权限模型实战开发教程,本文给大家介绍的非常详细,对大... 目录1. 前言2. 权限决策依据RBACABAC综合对比3. 数据库表结构说明4. 实战开始5. MyBA