EfficientNet算法解析和实践

本文主要是介绍EfficientNet算法解析和实践，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

之前的深度学习论文都是在某个设计维度上对网络结构进行研究，比如网络结构的操作层个数（深度）、输入图片的分辨率或者操作层的通道数（宽度），很少有论文同时对这三种维度上的组合搜索进行研究。EfficientNet研究的就是在相同FLOPS算力的限制下，探索网络深度、宽度和分辨率对相同操作类型网络的结果影响，找到最优的配置比例参数。

优化问题

本论文研究不是对网络中操作层的类型进行搜索，假定论文的基本卷积网络中的每个阶段的操作都是一样的，比如以ResNet为例，网络有5个stage，每个stage中每个层的卷积操作和残差块都是一样的。基本卷积网络的问题可以描述为：
在这里插入图片描述
在这个公式中， $F_{i}^{L_i}$ 表示的是stage $i$ 中重复 $L_i$ 次相同的操作 $F_i$ ， $X_{(H_i, W_i, C_i)}$ 表示的是大小为 $H_i, W_i, C_i)$ 的输入特征向量 $X$ 。
在一个标准的卷积神经网络中，网络结构的变化一般规律是：随着网络深度的增加，分辨率在每个stage减小一半，特征通道翻倍。EfficientNet的设计空间是每个stage的分辨率 $H_i, W_i)$ 、通道数 $C_i$ 和操作层数 $L_i$ ，为了减小搜索的设计空间，规定这三个维度的数值在stage上按照一定比例均匀变化。作者的目的是希望在给定资源限制的条件下，找到网络的深度、宽度和分辨率，最大限度地提高模型网络的分类准确率，优化问题可以表述为：
在这里插入图片描述
其中， $d, w, r$ 分别表示的网络的深度depth、通道宽度width和分辨率resolution。

组合缩放

作者在文章分别探索了改变网络的深度、通道宽度和分辨率的情况下，对于网络准确率和浮点计算量的影响。实验结果如下图所示。
在这里插入图片描述
上图中左中右分别代表的是在固定其他两个参数的条件下，分别提高宽度、深度和分辨率系数的条件下，在ImageNet上面的精度和计算量变化。从上图我们可以观察到，随着三种系数的增加，网络模型的计算量越来越大，但是准确率的增加几近停滞。
作者做了一些实验，探索了在不同深度和分辨率下，通道数变化对对于网络模型精度的影响，如下图所示。
在这里插入图片描述
可以看出，经过一些简单的比例调整（深度和宽度），在相同的FLOPS下，网络模型随着宽度的增加，获得比基准网络获得更大的精度收益。作者得出了这样一个结论：调整和平衡三个维度的系数，在相同计算量下，可以获得精度更高的网络模型。
论文中最后提出了一种叫做混合缩放的方法，引进了一个混合系数 $\phi$ ，统一了三种维度系数的变化，变化的方法为：
在这里插入图片描述
其中， $\alpha, \beta, \gamma$ 分别表示深度、宽度和分辨率三种维度的基本构成比例，这个比例的约束是 $\alpha \cdot \beta^2 \cdot \gamma^2 \approx 2$ ，为什么宽度和分辨率的比例系数需要平方呢？因为计算量FLOPS的变化比例是和 $\beta$ 或者 $\gamma$ 的平方成正比的，这样子的话才能保证FLOPS随着 $\phi$ 的变化呈现 $2^\phi$ 的比例变化。

网络架构

因为本文的搜索空间不包括操作层类型，所以一个好的基准网络baseline对于整体效果也是至关重要。作者综合分类准确率和计算量的综合指标，以MnasNet的基本模块MBConv为搜索空间，搜索出了一个基准网络（FLOPS<400M），叫做EfficientNet-B0，这个网络模型的结构为：
在这里插入图片描述
可惜的是，作者在论文中并没有给出是用什么方法搜索的。
在有了B0的网络之后，作者通过两步来调整EfficientNet中的网络系数：

固定 $\phi=1$ 这个系数，采用网络搜索方法，基于公式(2)和(3)，找到 $\alpha, \beta, \gamma$ 的最佳组合，搜索出来的结果是 $\alpha=1.2, \beta=1.1, \gamma=1.15$ 。
固定 $\alpha, \beta, \gamma$ 这三个系数，逐渐放大 $\phi$ 这个系数，获得B1 - B7的网络模型。

实验结果

论文在ImageNet数据集上做实验，得到了EfficientNet B0 - B7八个网络的结果，并和其他相同配置下的网络作对比。如下表格所示。
在这里插入图片描述
从表格中可以看出，在差不多精度的条件下，不同级别的EfficientNet和其他网络相比，具有更少的计算量的参数量，计算量一般能提升4倍以上，有些甚至达到了十几倍，参数量也都减小了3倍以上。部分网络用FLOPS-Accuracy二维图表示的话，优势更加直观，如下。
在这里插入图片描述

为了验证论文方法的可扩展性，还在MobileNet v1、MobileNet v2和ResNet-50的基准网络上做实验，得到如下结果：
在这里插入图片描述
在论文中，还对其他数据集和网络进行迁移实验，均获得比当前网络更好的水平，这里我就不一一列出了。
作者在EfficientNet的训练技巧上使用了Auto Augment、tensorflow版本的RMSProp优化器、Exponential Moving Average和dropout等trick，训练模型的代码已经公布在了Github里tensorflow/tpu的仓库上。

实践

2019年时，我在tensorflow上使用单机8卡GPU对B0网络进行训练，基本上复现了论文的结果，但是B3的复现效果却不理想，比论文给出的稍微低一些。另外，网络上也有其他人实现了PyTorch版本的EfficientNet网络模型结构，比较出名的有Timm库，我在PyTorch上利用该库的网络和训练方法，也将B0网络训练到77.38的准确率。
另外，虽然EfficientNet的参数量和计算量比其他网络少很多，但是这个网络里面大量使用了MBConv，这种模块需要分通道卷积，这种卷积方法比较消耗GPU显存，所以虽然计算量少了很多，但是在训练的时候batch size却无法设置过大。

这篇关于EfficientNet算法解析和实践的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

EfficientNet算法解析和实践

优化问题

组合缩放

网络架构

实验结果

实践

相关文章

线上Java OOM问题定位与解决方案超详细解析

Spring Security简介、使用与最佳实践

防止Linux rm命令误操作的多场景防护方案与实践

C++统计函数执行时间的最佳实践

PHP应用中处理限流和API节流的最佳实践

ShardingProxy读写分离之原理、配置与实践过程

深度解析Python中递归下降解析器的原理与实现

深度解析Java @Serial 注解及常见错误案例

深入浅出Spring中的@Autowired自动注入的工作原理及实践应用

MySQL分库分表的实践示例