吴恩达机器学习训练秘籍整理一到十章(一)

2023-10-09 16:59

本文主要是介绍吴恩达机器学习训练秘籍整理一到十章(一),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

第一到四章:

1.为什么选用机器学习策略。机器学习是无数重要应用的基础。

2.先修知识与符号标记。有监督学习的经验。了解机器学习。

3.驱动机器学习发展的原因。数据的可用性和计算规模。

传统算法和神经网络算法在数据集较小的情况下区别不大,但是随着数据集的增加和网络层数的加深,效果会越来越好。

假设我们要做的产品是一个APP,用户上传图片我们来自动的找到图中有猫的照片。 

 

第五章:

这一章主要介绍测试集,开发集和训练集。

我们训练自己的网络需要先收集大量猫的数据集(正样本)和不含有猫的数据集(负样本)。将这些数据集按照7:3的比例划分为训练集和测试集。

1.训练集:训练你的算法

2.开发集:用于调整参数,选择特征,以及对学习算法作出其它决定。有时也称为留出交叉验证集(hold-out cross validation set)。在训练的过程中对算法进行评价。

3.测试集:评估算法的好坏。训练结束后对模型进行评价

对于数据较少的机器学习来说一般按照7:3或者8:2来划分。加入开发集一般按照6:2:2来进行划分。

对于深度学习的大量数据来说一般按照98:1:1来进行划分。

第六章:

开发集和测试集应该服从同一分布。

第七章:

开发集和测试集应该有多大?

1. 开发集的大小应该在1000-10000之间。主要还是看你所在的领域对于精度的要求有多高,要求的精度越高开发集就应该越多。

2. 虽然现在我们机器学习的数据在不断的增加,因此开发集和测试集的数据的绝对数量都在增加,可是总体上分配给他们的比例是在减少的。因此也可以看出来开发集和测试集并不是越大越好。

第八章:

查准率(精度)和查全率(召回率)

查准率:在训练集(或者测试集中)被预测为猫的图片中,实际类别是猫的样本比例。

查全率:在训练集(或者测试集中)所有类别为猫的图片中,被准确识别为猫的比例。

在开发过程中有可能只需要考虑其中的一个标准就可以,或者将两个标准合并在一起来评价算法的好坏。

第九章:

优化指标和满意度指标。多评价指标问题。

假设我们既要关心算法的准确率又要关心其运行时间。

我们将准确率和时间放入到公式里面计算得出单个指标,这似乎不太自然

Accuracy-0.5*Running time

我们可以采用一个代替方案,首先定义一个我们可以接受的程序运行时间100ms。然后再在这个运行时间之内找一个准确率最高的分类器,这样我们就可以找到分类器B。此时时间在这里就是一个‘满意度指标’,而准确率就是一个‘优化指标’。

假设我们有N个不同的标准,比如运行时间,模型大小和准确率这三个标准。我们可能需要考虑N-1个满意度指标,下一步定义一个优化指标。例如时间和模型大小是满意度指标,准确率是优化指标。

第十章:

如何解决面临的问题

1.尝试一些新的想法。

2.通过代码实现想法。

3.根据实验判断想法是否行得通。

上图所示循环迭代的越快,我们的进展就会越快。此时拥有开发集、测试集和度量指标的重要性便得以体现了:每当你有了一个新想法,在开发集上评估其性能可以帮你判断当前的方向是否正确。

这篇关于吴恩达机器学习训练秘籍整理一到十章(一)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/174270

相关文章

Unity新手入门学习殿堂级知识详细讲解(图文)

《Unity新手入门学习殿堂级知识详细讲解(图文)》Unity是一款跨平台游戏引擎,支持2D/3D及VR/AR开发,核心功能模块包括图形、音频、物理等,通过可视化编辑器与脚本扩展实现开发,项目结构含A... 目录入门概述什么是 UnityUnity引擎基础认知编辑器核心操作Unity 编辑器项目模式分类工程

Python学习笔记之getattr和hasattr用法示例详解

《Python学习笔记之getattr和hasattr用法示例详解》在Python中,hasattr()、getattr()和setattr()是一组内置函数,用于对对象的属性进行操作和查询,这篇文章... 目录1.getattr用法详解1.1 基本作用1.2 示例1.3 原理2.hasattr用法详解2.

MyBatis的xml中字符串类型判空与非字符串类型判空处理方式(最新整理)

《MyBatis的xml中字符串类型判空与非字符串类型判空处理方式(最新整理)》本文给大家介绍MyBatis的xml中字符串类型判空与非字符串类型判空处理方式,本文给大家介绍的非常详细,对大家的学习或... 目录完整 Hutool 写法版本对比优化为什么status变成Long?为什么 price 没事?怎

Python按照24个实用大方向精选的上千种工具库汇总整理

《Python按照24个实用大方向精选的上千种工具库汇总整理》本文整理了Python生态中近千个库,涵盖数据处理、图像处理、网络开发、Web框架、人工智能、科学计算、GUI工具、测试框架、环境管理等多... 目录1、数据处理文本处理特殊文本处理html/XML 解析文件处理配置文件处理文档相关日志管理日期和

Python38个游戏开发库整理汇总

《Python38个游戏开发库整理汇总》文章介绍了多种Python游戏开发库,涵盖2D/3D游戏开发、多人游戏框架及视觉小说引擎,适合不同需求的开发者入门,强调跨平台支持与易用性,并鼓励读者交流反馈以... 目录PyGameCocos2dPySoyPyOgrepygletPanda3DBlenderFife

Python自动化批量重命名与整理文件系统

《Python自动化批量重命名与整理文件系统》这篇文章主要为大家详细介绍了如何使用Python实现一个强大的文件批量重命名与整理工具,帮助开发者自动化这一繁琐过程,有需要的小伙伴可以了解下... 目录简介环境准备项目功能概述代码详细解析1. 导入必要的库2. 配置参数设置3. 创建日志系统4. 安全文件名处

MySQL 迁移至 Doris 最佳实践方案(最新整理)

《MySQL迁移至Doris最佳实践方案(最新整理)》本文将深入剖析三种经过实践验证的MySQL迁移至Doris的最佳方案,涵盖全量迁移、增量同步、混合迁移以及基于CDC(ChangeData... 目录一、China编程JDBC Catalog 联邦查询方案(适合跨库实时查询)1. 方案概述2. 环境要求3.

SpringSecurity整合redission序列化问题小结(最新整理)

《SpringSecurity整合redission序列化问题小结(最新整理)》文章详解SpringSecurity整合Redisson时的序列化问题,指出需排除官方Jackson依赖,通过自定义反序... 目录1. 前言2. Redission配置2.1 RedissonProperties2.2 Red

MySQL 多列 IN 查询之语法、性能与实战技巧(最新整理)

《MySQL多列IN查询之语法、性能与实战技巧(最新整理)》本文详解MySQL多列IN查询,对比传统OR写法,强调其简洁高效,适合批量匹配复合键,通过联合索引、分批次优化提升性能,兼容多种数据库... 目录一、基础语法:多列 IN 的两种写法1. 直接值列表2. 子查询二、对比传统 OR 的写法三、性能分析

Javaee多线程之进程和线程之间的区别和联系(最新整理)

《Javaee多线程之进程和线程之间的区别和联系(最新整理)》进程是资源分配单位,线程是调度执行单位,共享资源更高效,创建线程五种方式:继承Thread、Runnable接口、匿名类、lambda,r... 目录进程和线程进程线程进程和线程的区别创建线程的五种写法继承Thread,重写run实现Runnab