神经网络训练中小知识点记录

2024-03-06 17:32

本文主要是介绍神经网络训练中小知识点记录,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  1. Faster RCNN和SSD有什么不同,为什么SSD快?
    不做region proposal,而且是one-stage
  2. 训练加速的办法
    加大bacth size,或者先adam再SGD
  3. 加大batch size需要调节哪些超参数
    加大学习率,加大epoch
  4. pascal voc数据集坐标从1开始,而不是从0开始,也许采用的是matlab的格式。
  5. 数据扩增:如随机翻转、随机裁剪、颜色抖动等。注意:对图像所做的任何操作都必须对边界框同样执行,如果翻转图像,还必须对应地翻转真值框的坐标。因为卷积具有平移不变性,因此数据增强一般使用的是复杂的策略:翻转、裁切、放缩。考虑到实现的方便性,常见的是使用翻转,若网络允许的话,也会加入一些随机放缩到一组特定尺寸中的某个。
  6. 例如在yolo中,数据扩增的流程如下:
    第一步:加载原始图像
    第二步:随机增加、或者减去原始图片大小的20%来选择新的宽度和高度
    第三步:按照新大小裁剪图像,如果新图像在一个或多个边上大于原始图像,则用0填充。
    第四步:将图像resize到416*416,使其成为正方形
    第五步:随机翻转图像的色调、饱和度曝光(亮度)
    第六步:通过移动和缩放边界框坐标来调整边界框,以适应前面所做的裁剪和调整大小,以及水平翻转等操作。
  7. 旋转是常见数据扩增技术,但是这是很麻烦的,因为牵涉到旋转边界框。所以通常不采用旋转来扩增数据。
  8. SSD采用的数据扩增流程是:
    第一步:随机裁剪一个图像区域,使该区域中物体的最小IOU为0.1/0.3/0.5/0.7/0.9,IOU越小,模型越难检测到物体。
    第二步:使用“缩小”增强,将图像变小,从而构建包含小物体的训练数据,这对于模型更好的处理小物体很有用。
  9. 数据扩增中的随机裁剪可能导致物体的部分或者全部落在裁剪图像之外。因此只希望保留中心位于该裁剪区域某个位置的边界框,不希望保留中心位于裁剪区域之外的框。
  10. 理解网络架构背后的概念、洞察力比架构本身更重要
  11. 再调整超参数上(如内核大小、损失函数的加权因子等)耗费太多时间不值得,因为对性能的提升微乎其微。
  12. 为每个图层指定名称,便于查找。
  13. 单元测试,查看迭代后是否更新权重。
  14. VGG的设计经验:每进行一次尺寸上的下采样(减少),就要增加2倍的卷积核数量。

对于不平衡的样本,需要从数据和算法两个层面解决:

  1. 在数据上:数据重采样(上采样,复制或者数据扩充使得样本少类与样本最多的类一致,下采样,比如在每个batch中保证政府比例相等),累呗平衡采样(将样本归类,将所有类扩充到与样本最多的类一致后随机打乱,方法与数据重采样中的上采样类似)
  2. 在算法上:代价敏感

模型集成

  1. 数据层面:测试阶段数据增广(对同一张图像增广成n张,将n张输入到模型得到n个结果进行集成)、简易集成法。
  2. 模型层面:单模型集成(多层特征融合,将多层特征融合,网络快照法)、多模型集成(多模型生成,同一模型不同初始化、同一模型不同训练轮数、不同目标函数、不同网络结构,多模型集成,直接平均,投票法,丢跌法(将集成结果作为新的特征训练另一个模型)

网络参数初始化

  1. 全零初始化:但是当全零初始化时,导致网络输出全部相同,梯度更新完全相同,模型无法训练
  2. 随机初始化:实际应用,通常将随机参数服从均匀分布或者是高斯分布

目标函数(损失函数)

  1. 分类任务:交叉熵损失函数是常用的,合页损失函数、坡道损失函数、中心损失函数
  2. 回归任务:L1损失函数、L2损失函数

网络正则化(保证泛化能力的同时,避免过拟合)

  1. L2正则化,L1正则化(相较于L2正则化,L1正则化能产生更加稀疏的参数)、Elastic网络正则化(L1和L2按照比例混合)
  2. 随机失活,注意训练阶段和测试阶段的区别,需要乘上系数
  3. 增加训练数据,使用更多的数据扩充方式
  4. 加入随机噪声

超参数设定与网络训练

  1. 超参数设定:输入数据的像素大小、卷积层参数设定(卷积核大小、卷积操作的步长、卷积核个数、通常卷积核大小为奇数,一般是3或者5,卷积核个数一般为2的次幂)、池化层参数设定
  2. 网络训练:在每轮训练前将训练集顺序打乱,是因为信息论中从不相似的事件中学习总是比从相似事件中学习更具有信息量,学习率设定,初始不宜过大,后续需要减缓,是否使用Batch Normalization,优化算法的选择(SGD、基于动量的SGD、Nesterov、Adagrad、Adadelta、RMSProp、Adam等)

这篇关于神经网络训练中小知识点记录的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/780819

相关文章

Java使用SLF4J记录不同级别日志的示例详解

《Java使用SLF4J记录不同级别日志的示例详解》SLF4J是一个简单的日志门面,它允许在运行时选择不同的日志实现,这篇文章主要为大家详细介绍了如何使用SLF4J记录不同级别日志,感兴趣的可以了解下... 目录一、SLF4J简介二、添加依赖三、配置Logback四、记录不同级别的日志五、总结一、SLF4J

在Spring Boot中浅尝内存泄漏的实战记录

《在SpringBoot中浅尝内存泄漏的实战记录》本文给大家分享在SpringBoot中浅尝内存泄漏的实战记录,结合实例代码给大家介绍的非常详细,感兴趣的朋友一起看看吧... 目录使用静态集合持有对象引用,阻止GC回收关键点:可执行代码:验证:1,运行程序(启动时添加JVM参数限制堆大小):2,访问 htt

MySQL 中查询 VARCHAR 类型 JSON 数据的问题记录

《MySQL中查询VARCHAR类型JSON数据的问题记录》在数据库设计中,有时我们会将JSON数据存储在VARCHAR或TEXT类型字段中,本文将详细介绍如何在MySQL中有效查询存储为V... 目录一、问题背景二、mysql jsON 函数2.1 常用 JSON 函数三、查询示例3.1 基本查询3.2

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

Spring Boot 配置文件之类型、加载顺序与最佳实践记录

《SpringBoot配置文件之类型、加载顺序与最佳实践记录》SpringBoot的配置文件是灵活且强大的工具,通过合理的配置管理,可以让应用开发和部署更加高效,无论是简单的属性配置,还是复杂... 目录Spring Boot 配置文件详解一、Spring Boot 配置文件类型1.1 applicatio

MySQL INSERT语句实现当记录不存在时插入的几种方法

《MySQLINSERT语句实现当记录不存在时插入的几种方法》MySQL的INSERT语句是用于向数据库表中插入新记录的关键命令,下面:本文主要介绍MySQLINSERT语句实现当记录不存在时... 目录使用 INSERT IGNORE使用 ON DUPLICATE KEY UPDATE使用 REPLACE

Python 中的异步与同步深度解析(实践记录)

《Python中的异步与同步深度解析(实践记录)》在Python编程世界里,异步和同步的概念是理解程序执行流程和性能优化的关键,这篇文章将带你深入了解它们的差异,以及阻塞和非阻塞的特性,同时通过实际... 目录python中的异步与同步:深度解析与实践异步与同步的定义异步同步阻塞与非阻塞的概念阻塞非阻塞同步

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

Spring Boot中定时任务Cron表达式的终极指南最佳实践记录

《SpringBoot中定时任务Cron表达式的终极指南最佳实践记录》本文详细介绍了SpringBoot中定时任务的实现方法,特别是Cron表达式的使用技巧和高级用法,从基础语法到复杂场景,从快速启... 目录一、Cron表达式基础1.1 Cron表达式结构1.2 核心语法规则二、Spring Boot中定

国内环境搭建私有知识问答库踩坑记录(ollama+deepseek+ragflow)

《国内环境搭建私有知识问答库踩坑记录(ollama+deepseek+ragflow)》本文给大家利用deepseek模型搭建私有知识问答库的详细步骤和遇到的问题及解决办法,感兴趣的朋友一起看看吧... 目录1. 第1步大家在安装完ollama后,需要到系统环境变量中添加两个变量2. 第3步 “在cmd中