钻石价格预测的ML全流程!从模型构建调优道部署应用!⛵

2024-01-17 17:10

本文主要是介绍钻石价格预测的ML全流程!从模型构建调优道部署应用!⛵,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

💡 作者:韩信子@ShowMeAI
📘 数据分析 ◉ 技能提升系列:http://www.showmeai.tech/tutorials/33
📘 AI 面试题库系列:http://www.showmeai.tech/tutorials/48
📘 本文地址:http://www.showmeai.tech/article-detail/302
📢 声明:版权所有,转载请联系平台与作者并注明出处
📢 收藏ShowMeAI查看更多精彩内容

我们经常会谈到工业界端到端的机器学习建模,所谓端到端,是指的把整个过程构建在一个完整的流程(比如pipeline管道)中,包括数据侧的处理、模型建模调优,及模型部署应用等环节,如我们之前所说,完整的机器学习开发流程如下:

在本篇内容中,ShowMeAI将给大家讲解到下述内容:

  • 使用 PyCaret 构建端到端机器学习管道
  • ML 模型部署 & FastAPI 开发实时预测

💡 工具库

📌 PyCaret

PyCaret 是一个开源的低代码机器学习库,内置Python端到端模型管理工具,被用于自动化机器学习工作流。因其易用性、简单性以及快速高效地构建和部署端到端 ML 原型的能力而广受欢迎。

更多有关 PyCaret 的信息,可以在官方 📘 GitHub 查看。

我们先通过 pip 安装 pycaret 工具库:

pip install pycaret

📌 FastAPI

FastAPI 是一个快速(高性能)的Web框架,主要特点是:

  • 快速 :非常高的性能,是目前可用的最快的 Python 框架之一 。
  • 快速编码 :将开发速度提高2到3倍。
  • 简单 :易于学习和使用。

更多有关 FastAPI 的信息,请查看官方 📘 GitHub

我们也通过 pip 安装 fastapi:

pip install fastapi

💡 业务背景

本篇内容中涉及的案例来自达顿商学院(案例研究发表在 📘 哈佛商学院),案例中收集了 6000 颗钻石的数据,包括它们的价格和切工、颜色、形状等属性。

🏆 实战数据集下载(百度网盘):公众号『ShowMeAI研究中心』回复『实战』,或者点击 这里 获取本文 [13] 钻石价格预测的ML全流程!从模型构建调优道部署应用! 『** pycaret-master 数据集**』

ShowMeAI官方GitHub:https://github.com/ShowMeAI-Hub

💡 数据

我们在本篇内容中,使用钻石的克拉重量、切工、颜色和其他特征等属性来预测钻石的价格。 数据集可从 📘 此处下载。

# 加载数据
from pycaret.datasets import get_data
data = get_data('diamond')

💡 探索性数据分析

我们先做一些快速数据分析和可视化来评估数据字段属性(重量、切工、颜色、净度等)与目标变量/标签Price的关系。

# 绘制carat_weight和Price的散点图
import plotly.express as px
fig = px.scatter(x=data['Carat Weight'], y=data['Price'], facet_col = data['Cut'], opacity = 0.25, template = 'plotly_dark', trendline='ols', trendline_color_override = 'red', title = 'SARAH GETS A DIAMOND - A CASE STUDY')
fig.show()

我们绘制并了解一下目标变量Price的分布。

# 绘制灰度图查看分布
fig = px.histogram(data, x=["Price"], template = 'plotly_dark', title = 'Histogram of Price')
fig.show()

可以从上图看出Price是明显右偏分布的,对于有偏的分布,我们可以做一些数据变换以调整数据分布,比如对数变换,下面我们先用对数变换对Price进行处理。

import numpy as np# 构建一份数据备份
data_copy = data.copy()# log对数变换
data_copy['Log_Price'] = np.log(data['Price'])# 绘制灰度图查看分布
fig = px.histogram(data_copy, x=["Log_Price"], title = 'Histgram of Log Price', template = 'plotly_dark')fig.show()

大家可以明显看到,经过log变换后的数据分布,更加接近正态分布。

💡 数据准备

我们先导入PyCaret工具库,并做基本的设置。

# 初始化
from pycaret.regression import *
s = setup(data, target = 'Price', transform_target = True)

注意上面的 transform_target = True,PyCaret会对Price字段使用 box-cox 变换,这个变换与对数转换是类似的,也能对有偏分布进行校正。

💡 模型选择&训练&调优

数据准备完毕后,我们使用模型对其进行训练,pycaret中最简单的方式是使用 compare_models函数,它使用交叉验证来训练和评估模型库中可用的模型,它的返回值是具有平均交叉验证分数的评分网格。 这个过程只需要下列简单代码:

# 对所有可用模型进行实验和评估
best = compare_models()

上图是最终的实验结果,我们可以看到,对所有模型使用平均绝对误差 (MAE) 评估,CatBoost Regressor模型有最好的效果。

# 训练模型的预估结果残差
plot_model(best, plot = 'residuals_interactive')
# 输出特征重要度
plot_model(best, plot = 'feature')

💡 模型保存

我们把最优模型保存为 pickle 文件。

# 最佳模型
final_best = finalize_model(best)# 存储模型
save_model(final_best, 'diamond-pipeline')

💡 模型部署

下面我们演示使用FastAPI框架快速构建模型服务,并提供实时预估的能力。

# 导入工具库
import pandas as pd
from pycaret.regression import load_model, predict_model
from fastapi import FastAPI
import uvicorn# 构建app对象
app = FastAPI()# 加载模型
model = load_model('diamond-pipeline')# 定义预估函数
@app.post('/predict')
def predict(carat_weight, cut, color, clarity, polish, symmetry, report):data = pd.DataFrame([[carat_weight, cut, color, clarity, polish, symmetry, report]])data.columns = ['Carat Weight', 'Cut', 'Color', 'Clarity', 'Polish', 'Symmetry', 'Report']predictions = predict_model(model, data=data) return {'prediction': int(predictions['Label'][0])}if __name__ == '__main__':uvicorn.run(app, host='127.0.0.1', port=8000)

接下来可以通过终端命令行运行以下命令来运行这个服务,大家确保运行命令的路径和上述python脚本和以及模型存储pickle文件在同一位置。

uvicorn main:app --reload

命令执行完后,我们就在 localhost 上初始化 API 服务了,大家在浏览器上输入 http://localhost:8000/docs ,会显示如下内容:

点击页面中绿色的 POST 按钮,它将打开一个像这样的表单:

点击右上角的『Try it out』 ,在表单填入一些值,然后点击『Execute』,我们会看到以下响应:

我们可以使用 python 的 requests 库测试一下,远程发起请求是否可以得到结果,如下图所示:

大家可以看看,我们通过传参的方式对模型服务发起请求,并得到返回结果。

参考资料

  • 🏆 实战数据集下载(百度网盘):公众号『ShowMeAI研究中心』回复『实战』,或者点击 这里 获取本文 [13] 钻石价格预测的ML全流程!从模型构建调优道部署应用! 『** pycaret-master 数据集**』
  • ShowMeAI官方GitHub:https://github.com/ShowMeAI-Hub
  • 📘 PyCaret GitHub:https://www.github.com/pycaret/pycaret
  • 📘 FastAPI GitHub:https://github.com/tiangolo/fastapi
  • 📘 哈佛商学院 Sarah Gets a Diamond:https://hbsp.harvard.edu/product/UV0869-PDF-ENG

这篇关于钻石价格预测的ML全流程!从模型构建调优道部署应用!⛵的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/616699

相关文章

java Long 与long之间的转换流程

《javaLong与long之间的转换流程》Long类提供了一些方法,用于在long和其他数据类型(如String)之间进行转换,本文将详细介绍如何在Java中实现Long和long之间的转换,感... 目录概述流程步骤1:将long转换为Long对象步骤2:将Longhttp://www.cppcns.c

基于Python构建一个高效词汇表

《基于Python构建一个高效词汇表》在自然语言处理(NLP)领域,构建高效的词汇表是文本预处理的关键步骤,本文将解析一个使用Python实现的n-gram词频统计工具,感兴趣的可以了解下... 目录一、项目背景与目标1.1 技术需求1.2 核心技术栈二、核心代码解析2.1 数据处理函数2.2 数据处理流程

Python FastMCP构建MCP服务端与客户端的详细步骤

《PythonFastMCP构建MCP服务端与客户端的详细步骤》MCP(Multi-ClientProtocol)是一种用于构建可扩展服务的通信协议框架,本文将使用FastMCP搭建一个支持St... 目录简介环境准备服务端实现(server.py)客户端实现(client.py)运行效果扩展方向常见问题结

详解如何使用Python构建从数据到文档的自动化工作流

《详解如何使用Python构建从数据到文档的自动化工作流》这篇文章将通过真实工作场景拆解,为大家展示如何用Python构建自动化工作流,让工具代替人力完成这些数字苦力活,感兴趣的小伙伴可以跟随小编一起... 目录一、Excel处理:从数据搬运工到智能分析师二、PDF处理:文档工厂的智能生产线三、邮件自动化:

Python使用Tkinter打造一个完整的桌面应用

《Python使用Tkinter打造一个完整的桌面应用》在Python生态中,Tkinter就像一把瑞士军刀,它没有花哨的特效,却能快速搭建出实用的图形界面,作为Python自带的标准库,无需安装即可... 目录一、界面搭建:像搭积木一样组合控件二、菜单系统:给应用装上“控制中枢”三、事件驱动:让界面“活”

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

如何确定哪些软件是Mac系统自带的? Mac系统内置应用查看技巧

《如何确定哪些软件是Mac系统自带的?Mac系统内置应用查看技巧》如何确定哪些软件是Mac系统自带的?mac系统中有很多自带的应用,想要看看哪些是系统自带,该怎么查看呢?下面我们就来看看Mac系统内... 在MAC电脑上,可以使用以下方法来确定哪些软件是系统自带的:1.应用程序文件夹打开应用程序文件夹

SpringBoot整合Sa-Token实现RBAC权限模型的过程解析

《SpringBoot整合Sa-Token实现RBAC权限模型的过程解析》:本文主要介绍SpringBoot整合Sa-Token实现RBAC权限模型的过程解析,本文给大家介绍的非常详细,对大家的学... 目录前言一、基础概念1.1 RBAC模型核心概念1.2 Sa-Token核心功能1.3 环境准备二、表结

spring-gateway filters添加自定义过滤器实现流程分析(可插拔)

《spring-gatewayfilters添加自定义过滤器实现流程分析(可插拔)》:本文主要介绍spring-gatewayfilters添加自定义过滤器实现流程分析(可插拔),本文通过实例图... 目录需求背景需求拆解设计流程及作用域逻辑处理代码逻辑需求背景公司要求,通过公司网络代理访问的请求需要做请

Python Flask 库及应用场景

《PythonFlask库及应用场景》Flask是Python生态中​轻量级且高度灵活的Web开发框架,基于WerkzeugWSGI工具库和Jinja2模板引擎构建,下面给大家介绍PythonFl... 目录一、Flask 库简介二、核心组件与架构三、常用函数与核心操作 ​1. 基础应用搭建​2. 路由与参