向毕业妥协系列之机器学习笔记:构建ML系统(三)

2023-10-22 23:59

本文主要是介绍向毕业妥协系列之机器学习笔记:构建ML系统(三),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

一.机器学习开发的迭代

二.误差分析

三.添加更多数据

四.迁移学习

五.机器学习项目的完整周期


一.机器学习开发的迭代

然后我们以识别垃圾电子邮件为例来讲解一下这个过程

如上图,结合英文看,右侧是一封电子邮件,咱们从英语字典里把最常用的10000个单词取出来,然后输入数据就是一个有10000个特征的向量,遍历邮件,出现了哪个单词,单词在x中的对应位置就置为1。另一种方式是不止置为1,而是记录对应的那个单词的出现次数。当然吴佬说置为1效果就很不错。

然后在我们开发的过程中,肯定还会遇到很多问题,需要咱们具体问题具体分析。

二.误差分析

就选择下一步要做什么来而言,偏差和方差的重要性是第一位的,误差分析是第二位的。

错误分析需要咱们手动来实现,如果数量比较多,比如验证集里有5000个训练示例,其中1000个被错误分类了,那么咱们可以从这1000个当中抽样100个来分析。

三.添加更多数据

获取大量的数据可能耗时,昂贵。有一种方法时基于已有的训练数据来新增训练数据,“数据增强”。

比如把带有字母A的图片进行旋转,放大,缩小,扭曲等操作,新生成新的图片,但这仍然代表字母A。

同样的,语音识别也可以应用这种技术,即给真实数据添加一点噪音形成新的数据。当然对现有数据进行修改和添加噪声等不是随意的操作,而是有针对性的,并且要检测的数据相似。

另一种新增数据的方法是“数据合成”。

传统的机器学习模型和现在的侧重点对比:

四.迁移学习

迁移学习可以把别的模型的部分参数直接拿到自己的模型中来用。看一下下面的例子就明白了。

                                                                                                                           注:fine tune:微调

上面的例子场景是现在我们想识别手写数字,但是手写数字的图片却不多,但是猫,狗,车和人的图片(1000个种类,所以最后输出层有1000个神经元,共一百万张图片)却充足,所以上图上面的那个模型是识别猫,狗,车,人等的模型;然后咱们现在要构建手写数字识别的模型,看到上图下面那个模型,也是五层的神经网络,前四层咱们直接把上面的那个模型已经训练好的前四层的参数直接拿过来用,然后现在是识别0~9,所以输出层有10个神经元,现在咱们只需要训练下面的这个模型的输出层的参数即可,前四层就不用训练了(因为直接借用了上面模型的前四层参数)。这时候我们需要的训练集大小就可以很小了,比如50张手写体数字的图片?So magic!

这个我们也有两种选择:

  1. 只训练手写体识别模型的输出层的参数
  2. 训练神经网络中所有的参数

 但是一般项目中是选择第二种方式,这就相当于给神经网络的前四层赋了一些初始值,虽然普通的神经网络训练的时候也会有初始值,但是迁移学习方式的这些初始值是已经经过了训练的初始值(虽然不是一个模型,但是难免还是会有一些共性存在)

现在很多研究者将他们的已经训练好的神经网络发布到网上,咱们只要把自己的输出层替换掉神经网络里的输出层即可,真的很适合迁移学习,极大地提高了我们的构建效率。

为什么迁移学习这么神奇呢?检测猫狗的模型竟然可以应用到手写体数字识别上,请看下面

检测猫狗的模型的前几层的参数已经学会了检测图像的边缘,角点,曲线,基本形状和一些非常通用的图像特征,这对其他很多计算机视觉任务都有用,如手写体数字识别。

 

由上图可知做迁移学习时,迁移过来的模型的输入数据的类型格式什么的要和自己输入的数据类型格式什么的一致才行。

五.机器学习项目的完整周期

下面来介绍一下生产环境下的部署:

这篇关于向毕业妥协系列之机器学习笔记:构建ML系统(三)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/264415

相关文章

基于Python实现一个简单的题库与在线考试系统

《基于Python实现一个简单的题库与在线考试系统》在当今信息化教育时代,在线学习与考试系统已成为教育技术领域的重要组成部分,本文就来介绍一下如何使用Python和PyQt5框架开发一个名为白泽题库系... 目录概述功能特点界面展示系统架构设计类结构图Excel题库填写格式模板题库题目填写格式表核心数据结构

Go学习记录之runtime包深入解析

《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,:本文主要介绍Go学习记录之runtime包的... 目录前言:一、runtime包内容学习1、作用:① Goroutine和并发控制:② 垃圾回收:③ 栈和

基于Python构建一个高效词汇表

《基于Python构建一个高效词汇表》在自然语言处理(NLP)领域,构建高效的词汇表是文本预处理的关键步骤,本文将解析一个使用Python实现的n-gram词频统计工具,感兴趣的可以了解下... 目录一、项目背景与目标1.1 技术需求1.2 核心技术栈二、核心代码解析2.1 数据处理函数2.2 数据处理流程

Linux系统中的firewall-offline-cmd详解(收藏版)

《Linux系统中的firewall-offline-cmd详解(收藏版)》firewall-offline-cmd是firewalld的一个命令行工具,专门设计用于在没有运行firewalld服务的... 目录主要用途基本语法选项1. 状态管理2. 区域管理3. 服务管理4. 端口管理5. ICMP 阻断

Python FastMCP构建MCP服务端与客户端的详细步骤

《PythonFastMCP构建MCP服务端与客户端的详细步骤》MCP(Multi-ClientProtocol)是一种用于构建可扩展服务的通信协议框架,本文将使用FastMCP搭建一个支持St... 目录简介环境准备服务端实现(server.py)客户端实现(client.py)运行效果扩展方向常见问题结

详解如何使用Python构建从数据到文档的自动化工作流

《详解如何使用Python构建从数据到文档的自动化工作流》这篇文章将通过真实工作场景拆解,为大家展示如何用Python构建自动化工作流,让工具代替人力完成这些数字苦力活,感兴趣的小伙伴可以跟随小编一起... 目录一、Excel处理:从数据搬运工到智能分析师二、PDF处理:文档工厂的智能生产线三、邮件自动化:

Android学习总结之Java和kotlin区别超详细分析

《Android学习总结之Java和kotlin区别超详细分析》Java和Kotlin都是用于Android开发的编程语言,它们各自具有独特的特点和优势,:本文主要介绍Android学习总结之Ja... 目录一、空安全机制真题 1:Kotlin 如何解决 Java 的 NullPointerExceptio

Windows 系统下 Nginx 的配置步骤详解

《Windows系统下Nginx的配置步骤详解》Nginx是一款功能强大的软件,在互联网领域有广泛应用,简单来说,它就像一个聪明的交通指挥员,能让网站运行得更高效、更稳定,:本文主要介绍W... 目录一、为什么要用 Nginx二、Windows 系统下 Nginx 的配置步骤1. 下载 Nginx2. 解压

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

如何确定哪些软件是Mac系统自带的? Mac系统内置应用查看技巧

《如何确定哪些软件是Mac系统自带的?Mac系统内置应用查看技巧》如何确定哪些软件是Mac系统自带的?mac系统中有很多自带的应用,想要看看哪些是系统自带,该怎么查看呢?下面我们就来看看Mac系统内... 在MAC电脑上,可以使用以下方法来确定哪些软件是系统自带的:1.应用程序文件夹打开应用程序文件夹