目标检测之EfficientNet

2023-11-11 22:41
文章标签 目标 检测 efficientnet

本文主要是介绍目标检测之EfficientNet,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文参考以下链接,如有侵权,联系删除
参考链接
论文:EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks-ICML 2019

概要

这篇ICML2019的论文对目前分类网络的优化提出更加泛化的思想,认为目前常用的加宽网络、加深网络和增加分辨率这3种常用的提升网络指标的方式之间不应该是相互独立的。因此提出了compound model scaling算法,通过综合优化网络宽度、网络深度和分辨率达到指标提升的目的,能够达到准确率指标和现有分类网络相似的情况下,大大减少模型参数量和计算量

model scaling

作者将目前分类网络的model scaling大致分为:加宽网络、加深网络和增大分辨率,也就是分别对应Figure2中的(b)、(c)、(d),这3个分别从不同的维度来做model scaling,举个例子,对ResNet网络做深度方面的model scaling可以得到ResNet50、ResNet101等不同深度的网络结构。而这篇论文要做的是将这3者结合起来一起优化,也就是(e)。
在这里插入图片描述

单个维度做scaling存在什么问题吗?

针对这个问题,作者做了Figure3这个实验,也就是针对某个分类网络的3个维度(宽度、深度和分辨率)分别做model scaling的结果对比。显然,单独优化这3个维度都能提升模型效果,但上限也比较明显,基本上在Acc达到80后提升就很小了。
在这里插入图片描述

多个维度结合做scaling效果如何?

针对这个问题,作者做了Figure4这个实验,相当于手动设置3个维度的model scaling参数。蓝色线表示的是只对宽度做model scaling的实验结果,上面的每个点表示不同宽度的网络,因此不同线条上相同顺序的点表示的网络宽度设置是一样的。可以看到,通过手动设置3个维度的model scaling参数就能有效提升模型的效果(突破80),这就说明多维度融合是有效的
在这里插入图片描述

怎么找到最优的3个维度的scaling参数?

这就是这篇文章提出的compound model scaling算法要解决的问题。
首先看看一些符号定义,在公式1中, N N N 表示分类网络, X X X 表示输入, F i F_i Fi 表示基础网络层, i i i 表示stage, L i L_i Li 表示 F i F_i Fi 结构在第 i i i 个stage中的重复数量。公式1这样的定义方式对应的最直观例子就是ResNet系列网络,我们知道ResNet系列网络有多个stage,每个stage包含不同数量的block结构。
在这里插入图片描述
那么model scaling的目标就是在模型参数和计算量满足限制条件的情况下最大化网络的准确率,也就是公式2所表达的内容,待优化的参数就是网络深度(d)、网络宽度(w)和分辨率(r)
在这里插入图片描述
为了找到满足公式2的3个维度参数,这篇论文引入Φ参数,并将3个待优化参数都用Φ指数表示,如公式3所示,同时对底做了数值限制,做限制可以减少网格搜索时的计算量,而具体的限制公式确定是为了方便计算FLOPS。这里需要说明一下d、w和r参数对FLOPS计算的影响,以卷积层为例,假如d变成原来的2倍,那么FLOPS也会变成原来的2倍;假如w变成原来的2倍,那么FLOPS就变成原来的4倍,因为输入输出通道都变成原来的2倍了,所以在计算量方面相当于4倍;r和w同理
在这里插入图片描述

baseline网络-EfficientNet-B0

准备好优化公式后,作者还通过网络结构搜索设计了一个baseline网络,也就是EfficientNet-B0,如Table1所示,网络结构比较简单,方便后续测试compound model scaling算法的效果。

在这里插入图片描述

网络优化求解

在优化求解方面,作者提出2步优化,

  • 第一步是固定Φ=1,然后通过网格搜索找到满足公式3的最优α、β、γ,比如对于EfficientNet-B0网络而言,最佳的参数分别是α=1.2、β=1.1、γ=1.15(此时得到的也就是EfficientNet-B1)。
  • 第二步是固定第一步求得的α、β、γ参数,然后用不同的Φ参数得到EfficientNet-B1到EfficientNet-B7网络,最后的实验结果如Table2所示,可以看到EfficientNet系列网络在取得和其他分类网络差不多的准确率时,参数量和计算量都很减少很多。

理论上,假如EfficientNet-B0网络是全卷积且做scale操作过程中没有小数的取整操作,那么从EfficientNet-B0到EfficientNet-B7网络的FLOPS应该是严格的2^Φ关系,但从Table2来看显然没有,主要是因为scale过程中的取整操作以及EfficientNet-B0网络并非全卷积结构
在这里插入图片描述
在最后的实验中,作者将compound model scaling算法应用在其他现有的分类模型中,发现同样有效,说明泛化效果还不错,如Table3所示。
在这里插入图片描述
在这里插入图片描述

这篇关于目标检测之EfficientNet的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/393315

相关文章

Linux系统性能检测命令详解

《Linux系统性能检测命令详解》本文介绍了Linux系统常用的监控命令(如top、vmstat、iostat、htop等)及其参数功能,涵盖进程状态、内存使用、磁盘I/O、系统负载等多维度资源监控,... 目录toppsuptimevmstatIOStatiotopslabtophtopdstatnmon

C++ 检测文件大小和文件传输的方法示例详解

《C++检测文件大小和文件传输的方法示例详解》文章介绍了在C/C++中获取文件大小的三种方法,推荐使用stat()函数,并详细说明了如何设计一次性发送压缩包的结构体及传输流程,包含CRC校验和自动解... 目录检测文件的大小✅ 方法一:使用 stat() 函数(推荐)✅ 用法示例:✅ 方法二:使用 fsee

OpenCV实现实时颜色检测的示例

《OpenCV实现实时颜色检测的示例》本文主要介绍了OpenCV实现实时颜色检测的示例,通过HSV色彩空间转换和色调范围判断实现红黄绿蓝颜色检测,包含视频捕捉、区域标记、颜色分析等功能,具有一定的参考... 目录一、引言二、系统概述三、代码解析1. 导入库2. 颜色识别函数3. 主程序循环四、HSV色彩空间

使用Python实现IP地址和端口状态检测与监控

《使用Python实现IP地址和端口状态检测与监控》在网络运维和服务器管理中,IP地址和端口的可用性监控是保障业务连续性的基础需求,本文将带你用Python从零打造一个高可用IP监控系统,感兴趣的小伙... 目录概述:为什么需要IP监控系统使用步骤说明1. 环境准备2. 系统部署3. 核心功能配置系统效果展

python+opencv处理颜色之将目标颜色转换实例代码

《python+opencv处理颜色之将目标颜色转换实例代码》OpenCV是一个的跨平台计算机视觉库,可以运行在Linux、Windows和MacOS操作系统上,:本文主要介绍python+ope... 目录下面是代码+ 效果 + 解释转HSV: 关于颜色总是要转HSV的掩膜再标注总结 目标:将红色的部分滤

Python如何实现PDF隐私信息检测

《Python如何实现PDF隐私信息检测》随着越来越多的个人信息以电子形式存储和传输,确保这些信息的安全至关重要,本文将介绍如何使用Python检测PDF文件中的隐私信息,需要的可以参考下... 目录项目背景技术栈代码解析功能说明运行结php果在当今,数据隐私保护变得尤为重要。随着越来越多的个人信息以电子形

SpringBoot使用Apache Tika检测敏感信息

《SpringBoot使用ApacheTika检测敏感信息》ApacheTika是一个功能强大的内容分析工具,它能够从多种文件格式中提取文本、元数据以及其他结构化信息,下面我们来看看如何使用Ap... 目录Tika 主要特性1. 多格式支持2. 自动文件类型检测3. 文本和元数据提取4. 支持 OCR(光学

如何用Java结合经纬度位置计算目标点的日出日落时间详解

《如何用Java结合经纬度位置计算目标点的日出日落时间详解》这篇文章主详细讲解了如何基于目标点的经纬度计算日出日落时间,提供了在线API和Java库两种计算方法,并通过实际案例展示了其应用,需要的朋友... 目录前言一、应用示例1、天安门升旗时间2、湖南省日出日落信息二、Java日出日落计算1、在线API2

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X