NASNet论文详解

2023-10-31 20:38

文章标签 详解论文 nasnet

本文主要是介绍NASNet论文详解，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

NASNet，论文的全名叫做Learning Transferable Architectures for Scalable Image Recognition.

这一篇论文是对神经网络架构搜索开篇之作NAS的集成和发展，也是由谷歌的Zoph等人提出来的，针对NAS论文中的缺点进行改进，在分类精度和训练资源、时间上，都优于前者。

NASNet论文的基本设计思想是：

和NAS论文一样，采用controller RNN来预测子网络参数
第一次提出了Cell和Block的概念
controller RNN不再用来预测每一层的网络参数，而是用来预测Cell里面的Block参数

首先介绍一下什么是Cell和Block。Cell可以看做是整体网络架构里面的一个单元块，类似ResNet架构的残差块或者MobileNet V2的bottleneck，整个网络就是由这些单元块堆叠连接而成。

Cell分两种：Normal和Reduction。当输入特征和输出特征的分辨率是一致时，采用Normal Cell，当输入特征的分辨率是输入特征的一半时，采用Reduction Cell。Reduction Cell的设计方法Normal Cell基本一样，只是在输入特征上添加了一个stride=2的卷积操作，降低分辨率。在整体网络架构中，Normal Cell和Reduction Cell的设计原则是每N个Normal Cell中插入一个Reduction Cell，如下图所示。
在这里插入图片描述
图1. Cifar-10和ImageNet上的NASNet网络架构

Block是Cell里面的基本单元，共有B个（论文取5）。每个Block有两个输入，分别经过各自的operation之后再结合（相加或者衔接）作为输出，Block的输出称为隐状态。对于第 $i$ 个Block，输入的候选范围包括前面 $i - 1$ 个Block的隐状态以及前两个Cell的输出，Block的操作的候选空间如下图所示。
在这里插入图片描述
图2. Block操作的候选空间

与NAS论文里controller RNN预测每一个layer的操作参数不同，NASNet的controller RNN是用来预测Cell里面每一个Block的参数。具体如下图所示。
在这里插入图片描述
图3. NASNet的controller RNN

Block的参数预测步骤有：

从输入候选范围内选择两个隐状态作为Block的两个输入
从操作候选空间选择operation作为步骤1中两个输入的操作
选择一个操作用来结合步骤2中的两个输出

预测步骤总共会循环B次，直至预测出Cell所有Block结构为止。

Controller RNN的训练方法和NAS论文中一样，也是通过验证集的精度作为reward来优化controller的参数，采用的强化学习中的PPO（Proximal Policy Optimization）算法。

在训练的时候，只选择一种Normal和Reduction Cell，同一个网络中相同类型的Cell结构是共享的，所以controller RNN只需要预测一个Cell的结构即可。从搜索空间的复杂度来看，这种方法设计极大地减小了搜索的次数和范围，这种思想被后来的其他NAS论文广泛引用，后面的博客介绍的其他方法会持续提到。

作者在训练的过程还加了一种额外的技巧，即先在小的数据集上（如Cifar-10）搜索Cell结构，等搜索结果出来后，再堆叠更多的Cell，应用在大数据集上（如ImageNet）。这样在搜索的过程中，子网络模型训练的时间便大幅减小，提高搜索的效率。

在Cifar-10数据上，论文使用了500个GPU，搜索了4天的时间。相比NAS论文的实验，搜索效率提升了7倍。在训练子网络时，采用Scheduled DropPath的方法，以一定的概率（随着迭代的次数线性增加）随机扔掉Cell里的某些路径。下图是NASNet搜索出来的Normal和Reduction Cell的结构。
在这里插入图片描述
图5. 搜索出来的Normal和Reduction Cell结构图