向毕业妥协系列之机器学习笔记:构建ML系统(三)

2023-10-22 23:59

本文主要是介绍向毕业妥协系列之机器学习笔记:构建ML系统(三),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

一.机器学习开发的迭代

二.误差分析

三.添加更多数据

四.迁移学习

五.机器学习项目的完整周期


一.机器学习开发的迭代

然后我们以识别垃圾电子邮件为例来讲解一下这个过程

如上图,结合英文看,右侧是一封电子邮件,咱们从英语字典里把最常用的10000个单词取出来,然后输入数据就是一个有10000个特征的向量,遍历邮件,出现了哪个单词,单词在x中的对应位置就置为1。另一种方式是不止置为1,而是记录对应的那个单词的出现次数。当然吴佬说置为1效果就很不错。

然后在我们开发的过程中,肯定还会遇到很多问题,需要咱们具体问题具体分析。

二.误差分析

就选择下一步要做什么来而言,偏差和方差的重要性是第一位的,误差分析是第二位的。

错误分析需要咱们手动来实现,如果数量比较多,比如验证集里有5000个训练示例,其中1000个被错误分类了,那么咱们可以从这1000个当中抽样100个来分析。

三.添加更多数据

获取大量的数据可能耗时,昂贵。有一种方法时基于已有的训练数据来新增训练数据,“数据增强”。

比如把带有字母A的图片进行旋转,放大,缩小,扭曲等操作,新生成新的图片,但这仍然代表字母A。

同样的,语音识别也可以应用这种技术,即给真实数据添加一点噪音形成新的数据。当然对现有数据进行修改和添加噪声等不是随意的操作,而是有针对性的,并且要检测的数据相似。

另一种新增数据的方法是“数据合成”。

传统的机器学习模型和现在的侧重点对比:

四.迁移学习

迁移学习可以把别的模型的部分参数直接拿到自己的模型中来用。看一下下面的例子就明白了。

                                                                                                                           注:fine tune:微调

上面的例子场景是现在我们想识别手写数字,但是手写数字的图片却不多,但是猫,狗,车和人的图片(1000个种类,所以最后输出层有1000个神经元,共一百万张图片)却充足,所以上图上面的那个模型是识别猫,狗,车,人等的模型;然后咱们现在要构建手写数字识别的模型,看到上图下面那个模型,也是五层的神经网络,前四层咱们直接把上面的那个模型已经训练好的前四层的参数直接拿过来用,然后现在是识别0~9,所以输出层有10个神经元,现在咱们只需要训练下面的这个模型的输出层的参数即可,前四层就不用训练了(因为直接借用了上面模型的前四层参数)。这时候我们需要的训练集大小就可以很小了,比如50张手写体数字的图片?So magic!

这个我们也有两种选择:

  1. 只训练手写体识别模型的输出层的参数
  2. 训练神经网络中所有的参数

 但是一般项目中是选择第二种方式,这就相当于给神经网络的前四层赋了一些初始值,虽然普通的神经网络训练的时候也会有初始值,但是迁移学习方式的这些初始值是已经经过了训练的初始值(虽然不是一个模型,但是难免还是会有一些共性存在)

现在很多研究者将他们的已经训练好的神经网络发布到网上,咱们只要把自己的输出层替换掉神经网络里的输出层即可,真的很适合迁移学习,极大地提高了我们的构建效率。

为什么迁移学习这么神奇呢?检测猫狗的模型竟然可以应用到手写体数字识别上,请看下面

检测猫狗的模型的前几层的参数已经学会了检测图像的边缘,角点,曲线,基本形状和一些非常通用的图像特征,这对其他很多计算机视觉任务都有用,如手写体数字识别。

 

由上图可知做迁移学习时,迁移过来的模型的输入数据的类型格式什么的要和自己输入的数据类型格式什么的一致才行。

五.机器学习项目的完整周期

下面来介绍一下生产环境下的部署:

这篇关于向毕业妥协系列之机器学习笔记:构建ML系统(三)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/264415

相关文章

使用Python构建智能BAT文件生成器的完美解决方案

《使用Python构建智能BAT文件生成器的完美解决方案》这篇文章主要为大家详细介绍了如何使用wxPython构建一个智能的BAT文件生成器,它不仅能够为Python脚本生成启动脚本,还提供了完整的文... 目录引言运行效果图项目背景与需求分析核心需求技术选型核心功能实现1. 数据库设计2. 界面布局设计3

深入浅出SpringBoot WebSocket构建实时应用全面指南

《深入浅出SpringBootWebSocket构建实时应用全面指南》WebSocket是一种在单个TCP连接上进行全双工通信的协议,这篇文章主要为大家详细介绍了SpringBoot如何集成WebS... 目录前言为什么需要 WebSocketWebSocket 是什么Spring Boot 如何简化 We

Linux系统中查询JDK安装目录的几种常用方法

《Linux系统中查询JDK安装目录的几种常用方法》:本文主要介绍Linux系统中查询JDK安装目录的几种常用方法,方法分别是通过update-alternatives、Java命令、环境变量及目... 目录方法 1:通过update-alternatives查询(推荐)方法 2:检查所有已安装的 JDK方

Linux系统之lvcreate命令使用解读

《Linux系统之lvcreate命令使用解读》lvcreate是LVM中创建逻辑卷的核心命令,支持线性、条带化、RAID、镜像、快照、瘦池和缓存池等多种类型,实现灵活存储资源管理,需注意空间分配、R... 目录lvcreate命令详解一、命令概述二、语法格式三、核心功能四、选项详解五、使用示例1. 创建逻

Spring Boot Maven 插件如何构建可执行 JAR 的核心配置

《SpringBootMaven插件如何构建可执行JAR的核心配置》SpringBoot核心Maven插件,用于生成可执行JAR/WAR,内置服务器简化部署,支持热部署、多环境配置及依赖管理... 目录前言一、插件的核心功能与目标1.1 插件的定位1.2 插件的 Goals(目标)1.3 插件定位1.4 核

使用Python构建一个高效的日志处理系统

《使用Python构建一个高效的日志处理系统》这篇文章主要为大家详细讲解了如何使用Python开发一个专业的日志分析工具,能够自动化处理、分析和可视化各类日志文件,大幅提升运维效率,需要的可以了解下... 目录环境准备工具功能概述完整代码实现代码深度解析1. 类设计与初始化2. 日志解析核心逻辑3. 文件处

golang程序打包成脚本部署到Linux系统方式

《golang程序打包成脚本部署到Linux系统方式》Golang程序通过本地编译(设置GOOS为linux生成无后缀二进制文件),上传至Linux服务器后赋权执行,使用nohup命令实现后台运行,完... 目录本地编译golang程序上传Golang二进制文件到linux服务器总结本地编译Golang程序

Linux系统性能检测命令详解

《Linux系统性能检测命令详解》本文介绍了Linux系统常用的监控命令(如top、vmstat、iostat、htop等)及其参数功能,涵盖进程状态、内存使用、磁盘I/O、系统负载等多维度资源监控,... 目录toppsuptimevmstatIOStatiotopslabtophtopdstatnmon

使用Docker构建Python Flask程序的详细教程

《使用Docker构建PythonFlask程序的详细教程》在当今的软件开发领域,容器化技术正变得越来越流行,而Docker无疑是其中的佼佼者,本文我们就来聊聊如何使用Docker构建一个简单的Py... 目录引言一、准备工作二、创建 Flask 应用程序三、创建 dockerfile四、构建 Docker

linux重启命令有哪些? 7个实用的Linux系统重启命令汇总

《linux重启命令有哪些?7个实用的Linux系统重启命令汇总》Linux系统提供了多种重启命令,常用的包括shutdown-r、reboot、init6等,不同命令适用于不同场景,本文将详细... 在管理和维护 linux 服务器时,完成系统更新、故障排查或日常维护后,重启系统往往是必不可少的步骤。本文