所有机器学习项目都适用的检查清单

2024-06-21 08:48

本文主要是介绍所有机器学习项目都适用的检查清单,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”


作者:Harshit Tyagi

编译:ronghuaiyang

导读

构建端到端机器学习项目的任务检查清单。

Image for post

我正在创建一系列[有价值的项目](https://towardsdatascience.com/howto -build-an- effective-dat-scienceportfoli-56d19b885aa8),我想到了将我从别人那里学到的或在工作中开发的实践记录下来。在本博客中,我整理了在处理端到端ML项目时经常提到的任务清单。

为什么我需要一个清单?

因为在一个项目中,你需要处理许多元素(争吵、准备、问题、模型、调优等等),所以很容易失去对事情的了解。

这个清单可以引导你完成接下来的步骤,并促使你检查每一个任务是否执行成功。

有时,我们很难找到起点,清单可以帮助你从正确的来源引出正确的信息(数据),以便建立关系并揭示相关的见解。

最好的做法是让项目的每个部分都经历检查。

正如Atul Gawande在他的书“The Checklist Manifesto”中所说,

我们所知道的东西的数量和复杂性已经超出了我们个人正确、安全或可靠地利用其优点的能力。

所以,让我带你过一遍这个简单的清单,它将减少你的工作量,提高你的产出……

机器学习项目检查清单

在几乎每个ML项目中,你都必须执行8-10个步骤。其中一些步骤可以顺序互换执行。

1. 从高层次上定义问题

这是为了理解和阐明问题的业务逻辑。它会告诉你:

  • 问题的性质(监督/非监督,分类/回归),

  • 你可以开发的解决方案类型

  • 你应该用什么标准来衡量表现?

  • 机器学习是解决这个问题的正确方法吗?

  • 手动解决问题的方法。

  • 问题的固有假设

2. 确认数据来源并获取数据

在大多数情况下,如果你有了数据,并且希望围绕数据定义问题以更好地使用传入的数据,那么可以在第一步之前执行此步骤。

根据问题的定义,需要确定数据源,可以是数据库、数据存储库、传感器等。对于要部署在生产环境中的应用,应该通过开发数据管道来实现这一步的自动化,以保持传入的数据流入系统。

  • 列出你需要的数据的来源和数量。

  • 检查存储空间是否会成为一个问题。

  • 检查你是否被授权为你的目的使用数据。

  • 获取数据,并将其转换为可行的格式。

  • 检查数据类型(文本、类别、数字、时间序列、图像)

  • 取出一份样品作最终测试之用。

3. 初始的数据探索

在这一步中,你需要研究影响你的结果/预测/目标的所有特征。如果你有一个巨大的数据块,在此步骤中对其进行采样,以使分析更易于管理。步骤:

  • 使用jupyter notebooks,因为它们提供了一个简单和直观的界面,以研究数据。

  • 确定目标变量

  • 识别特征的类型(类别、数字、文本等)

  • 分析特征之间的相关性。

  • 添加一些数据可视化,方便解释每个特征对目标变量的影响。

  • 记录你的发现。

4. 进行数据探索分析来准备数据

现在可以通过定义用于数据转换、清洗、特征选择/特征工程和缩放的函数来执行前一步的发现了。

  • 编写函数转换数据和自动化处理即将到来的批数据。

  • 编写函数来清洗数据(输入缺失值和处理异常值)

  • 编写函数来选择特征和特征工程 —— 删除冗余的特征,特征格式转换,以及其他的数学变换。

  • 特征缩放 —— 特征标准化。

5. 开发一个基线模型,然后探索其他模型,选出最好的模型

创建一个非常基本的模型,作为所有其他复杂机器学习模型的基线。检查表的步骤:

  • 使用默认参数训练一些常用的ML模型,如朴素贝叶斯、线性回归、支持向量机等。

  • 度量和比较每个模型与基线以及其他模型的性能。

  • 对每个模型采用N-fold交叉验证,并计算N fold上的性能指标的平均值和标准偏差。

  • 研究对目标有最大影响的特征。

  • 分析模型在预测时出现的误差类型。

  • 以不同的方式设计特征。

  • 重复以上步骤几次(反复试验),以确保我们在正确的格式中使用了正确的特征。

  • 基于他们的度量表现选择最好的几个模型入围。

6. 调优你的入围模型并检查集成方法

这需要成为你接近最终解决方案的关键步骤之一。主要步骤应包括:

  • 使用交叉验证超参数调优。

  • 使用自动调优方法,如随机搜索或网格搜索,以找出你的最佳模型的最佳配置。

  • 测试集成方法,如投票分类器等

  • 用尽可能多的数据测试模型。

  • 一旦定稿,使用我们在开始时预留的没有见过的测试样本,检查是否过拟合或欠拟合。

7. 记录代码并交流解决方案

交流的过程是多方面的。你需要记住所有现有的和潜在的相关因素。因此,主要步骤包括:

  • 记录代码以及你的方法和整个项目过程。

  • 创建一个像voila一样的仪表盘或一个有洞察力的演示,接近自我解释的可视化。

  • 写一篇博客/报告,记录你是如何分析特征,测试不同的变换等等。

  • 获得你学到的东西(失败和有效的技术)

  • 总结主要成果及未来范围(如有)

8. 将模型部署到生产环境中,监控!

如果你的项目需要在实时数据上测试部署,那么你应该创建一个跨所有平台(web、android、iOS)使用的web应用或REST API。主要步骤(视乎项目而定)包括:

  • 保存你的最终训练模型到一个h5或pickle文件。

  • 使用web服务服务你的模型,你可以使用Flask来开发这些web服务。

  • 连接输入数据源,设置ETL管道。

  • 使用pipenv、docker/Kubernetes管理依赖关系(基于扩展性需求)

  • 你可以使用AWS、Azure或谷歌云平台部署您的服务。

  • 监控实时数据的性能或简单地让人们用他们的数据来使用你的模型。

注意:检查表可以根据项目的复杂程度进行调整

—END—

英文原文:https://towardsdatascience.com/task-cheatsheet-for-almost-every-machine-learning-project-d0946861c6d0

请长按或扫描二维码关注本公众号

喜欢的话,请给我个好看吧

这篇关于所有机器学习项目都适用的检查清单的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1080756

相关文章

vite搭建vue3项目的搭建步骤

《vite搭建vue3项目的搭建步骤》本文主要介绍了vite搭建vue3项目的搭建步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学... 目录1.确保Nodejs环境2.使用vite-cli工具3.进入项目安装依赖1.确保Nodejs环境

Python版本与package版本兼容性检查方法总结

《Python版本与package版本兼容性检查方法总结》:本文主要介绍Python版本与package版本兼容性检查方法的相关资料,文中提供四种检查方法,分别是pip查询、conda管理、PyP... 目录引言为什么会出现兼容性问题方法一:用 pip 官方命令查询可用版本方法二:conda 管理包环境方法

idea+spring boot创建项目的搭建全过程

《idea+springboot创建项目的搭建全过程》SpringBoot是Spring社区发布的一个开源项目,旨在帮助开发者快速并且更简单的构建项目,:本文主要介绍idea+springb... 目录一.idea四种搭建方式1.Javaidea命名规范2JavaWebTomcat的安装一.明确tomcat

pycharm跑python项目易出错的问题总结

《pycharm跑python项目易出错的问题总结》:本文主要介绍pycharm跑python项目易出错问题的相关资料,当你在PyCharm中运行Python程序时遇到报错,可以按照以下步骤进行排... 1. 一定不要在pycharm终端里面创建环境安装别人的项目子模块等,有可能出现的问题就是你不报错都安装

uni-app小程序项目中实现前端图片压缩实现方式(附详细代码)

《uni-app小程序项目中实现前端图片压缩实现方式(附详细代码)》在uni-app开发中,文件上传和图片处理是很常见的需求,但也经常会遇到各种问题,下面:本文主要介绍uni-app小程序项目中实... 目录方式一:使用<canvas>实现图片压缩(推荐,兼容性好)示例代码(小程序平台):方式二:使用uni

MyCat分库分表的项目实践

《MyCat分库分表的项目实践》分库分表解决大数据量和高并发性能瓶颈,MyCat作为中间件支持分片、读写分离与事务处理,本文就来介绍一下MyCat分库分表的实践,感兴趣的可以了解一下... 目录一、为什么要分库分表?二、分库分表的常见方案三、MyCat简介四、MyCat分库分表深度解析1. 架构原理2. 分

linux查找java项目日志查找报错信息方式

《linux查找java项目日志查找报错信息方式》日志查找定位步骤:进入项目,用tail-f实时跟踪日志,tail-n1000查看末尾1000行,grep搜索关键词或时间,vim内精准查找并高亮定位,... 目录日志查找定位在当前文件里找到报错消息总结日志查找定位1.cd 进入项目2.正常日志 和错误日

MySQL使用EXISTS检查记录是否存在的详细过程

《MySQL使用EXISTS检查记录是否存在的详细过程》EXISTS是SQL中用于检查子查询是否返回至少一条记录的运算符,它通常用于测试是否存在满足特定条件的记录,从而在主查询中进行相应操作,本文给大... 目录基本语法示例数据库和表结构1. 使用 EXISTS 在 SELECT 语句中2. 使用 EXIS

在.NET项目中嵌入Python代码的实践指南

《在.NET项目中嵌入Python代码的实践指南》在现代开发中,.NET与Python的协作需求日益增长,从机器学习模型集成到科学计算,从脚本自动化到数据分析,然而,传统的解决方案(如HTTPAPI或... 目录一、CSnakes vs python.NET:为何选择 CSnakes?二、环境准备:从 Py

基于 Cursor 开发 Spring Boot 项目详细攻略

《基于Cursor开发SpringBoot项目详细攻略》Cursor是集成GPT4、Claude3.5等LLM的VSCode类AI编程工具,支持SpringBoot项目开发全流程,涵盖环境配... 目录cursor是什么?基于 Cursor 开发 Spring Boot 项目完整指南1. 环境准备2. 创建