DARTS论文和算法解析

2023-10-31 20:38
文章标签 算法 解析 论文 darts

本文主要是介绍DARTS论文和算法解析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

DARTS,论文的全名是Differentiable Architecture Search,即可微分的架构搜索。

综合之前的一些NAS论文方法可以看出,不管是强化学习、进化算法还是SMBO,这些都无法通过像传统深度学习那样由Loss的梯度来更新网络架构,只能间接去优化生成子网络模型的控制器(Controller RNN,Predictor)或方法(进化算法)。

DARTS论文第一次把网络模型以可微分参数化的形式实现,网络模型和网络架构整合在一起,通过数据的训练集和验证集交替优化。在训练结束后,再从网络架构参数中解析出搜索出来的子网络。

DARTS论文的基本设计思想:

  1. 采用NASNet里的Cell和Block的设计方法;
  2. 对Cell里的所有Block的可能性架构参数化;
  3. DARTS搜索阶段训练的Cell架构是所有可能性的集合;
  4. 在验证集上对Cell的架构参数求导优化。

前面两点比较好理解,第3点怎么理解所有可能性的集合呢?

从之前的研究方法我们可以看出,每次都是先挑选出子网络后,再进行训练,要么是从头训练(大部分方法),要么在之前训练的基础上(ENAS)。DARTS避免了挑选子网络的过程,它将Cell里面所有的可能性以参数化的形式表示,在训练时,Cell里面所有的可能性连接和操作都会进行前向计算和反向推理,所有操作的模型参数均会进行更新,只是可能性更大的参数有更大的梯度更新。

DARTS的Cell结构图如下图所示。

图1. DARTS的Cell架构图
在这里插入图片描述

图1中的每一个小矩形(称为Node)表示的是特征图,第1个Node是Cell的输入,最后一个Node是Cell的输出。特征图之间的颜色线表示的是operation(操作),图中假设特征图之间只有三种operation可选空间(分别用红绿蓝表示)。图 ( a ) (a) (a)表示的是搜索问题,即两两特征图之间要用哪一种operation;图 ( b ) (b) (b)表示的是Cell中所有operation的集合;图 ( c ) (c) (c)表示经过训练后,各个operation的权重(表示选择可能性)变化值,越粗的表示参数权重越大;图 ( d ) (d) (d)表示最终选出的Cell架构,可以看出挑选的是当前Node跟前继Node中可能性最大的一条线(除了最后一个Node,与前继Node都挑选出最大可能性的线)。

图1中颜色线在DARTS中叫做架构参数 α \alpha α,Node表示的特征图为 x x x o o o表示操作。那么中间任意一个Node可以用公式表示为:

x ( j ) = ∑ i < j o ( i , j ) ( x ( i ) ) x^{(j)}=\sum_{i<j}o^{(i,j)}(x^{(i)}) x(j)=i<jo(i,j)(x(i))

其中, i i i j j j表示Node序号,公式的意思是中间Node是所有前继Node经过操作后之和。两个Node之间的操作可以表示为:

o ‾ ( i , j ) ( x ) = ∑ o ∈ O e x p ( α o ( i , j ) ) ∑ o ′ ∈ O e x p ( α o ′ ( i , j ) ) o ( x ) \overline{o}^{(i,j)}(x)=\sum_{o\in O}\frac{exp(\alpha_{o}^{(i,j)})}{\sum_{o^{'}\in O}exp(\alpha_{o^{'}}^{(i,j)})}o(x) o(i,j)(x)=oOoOexp(αo(i,j))exp(αo(i,j))o(x)

这个公式表示两个Node之间的操作是它们之间所有操作的softmax之和。

在训练的时候,需要交替对网络的模型参数 w w w和架构参数 α \alpha α进行优化,优化的目标函数是:

m i n α L v a l ( w ∗ ( α ) , α ) s . t . w ∗ ( α ) = a r g m i n w L t r a i n ( w , α ) \begin{aligned} & \underset{\alpha}{min}~~~\mathcal {L}_{val}(w^{*}(\alpha), \alpha) \\ & s.t. ~~~ w^{*}(\alpha)=argmin_{w}~\mathcal {L}_{train}(w,\alpha) \end{aligned} αmin   Lval(w(α),α)s.t.   w(α)=argminw Ltrain(w,α)

训练的方法过程如下图所示:

图2. DARTS的搜索训练方法
在这里插入图片描述

大致的步骤只有两个,而且是交替进行:

  1. 固定架构参数,用训练数据集训练模型参数;
  2. 固定模型参数,用验证数据集训练架构参数。

训练结束后,选择子网络的方式:对于中间Node,每个Node会挑选出前继Node中可能性最大的两个作为连接对象,两个Node之间最多只有一条线(operation)可以连接,所以中间Node只有两个输入来源和对应的operation;最后的Node是所有前继Node(除了输入)按照channel维度concat起来的结果。

由于要同时训练所有的架构,所以Cell叠加的个数不能太大,也不能在大的数据集上进行搜索。作者在Cifar-10小数据集上进行搜索,叠加8个Cell,第一个Cell的输出通道为16,使用1个GPU(GTX 1080Ti)训练50个epoch,耗时1天。

搜索完成后,解析架构参数确定最佳子网络,将Cell个数扩充,并进行正式训练。DARTS搜索出来的网络在Cifar-10和ImageNet上的实验结果如下两图所示。

图3. DARTS在Cifar-10上的实验性能和对比
在这里插入图片描述

图4. DARTS在ImageNet上的实验性能和对比
在这里插入图片描述

从Cifar-10的实验可以看出,二阶梯度方法的DARTS精度只比NASNet和AmoebaNet-B的方法差,但是在训练的计算资源和耗时上要远远小于它们。DARTS的搜索时间比ENAS长,但是精度比它高。

在ImageNet的实验上我们可以看到,DARTS的精度也能接近之前的NAS方法,同等参数量条件下与NASNet相当,比AmoebaNet和PNASNet差一些,但是在搜索消耗的GPU时长上,DARTS方法具有明显的优势。

这篇关于DARTS论文和算法解析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/317977

相关文章

深度解析Spring Security 中的 SecurityFilterChain核心功能

《深度解析SpringSecurity中的SecurityFilterChain核心功能》SecurityFilterChain通过组件化配置、类型安全路径匹配、多链协同三大特性,重构了Spri... 目录Spring Security 中的SecurityFilterChain深度解析一、Security

全面解析Golang 中的 Gorilla CORS 中间件正确用法

《全面解析Golang中的GorillaCORS中间件正确用法》Golang中使用gorilla/mux路由器配合rs/cors中间件库可以优雅地解决这个问题,然而,很多人刚开始使用时会遇到配... 目录如何让 golang 中的 Gorilla CORS 中间件正确工作一、基础依赖二、错误用法(很多人一开

Mysql中设计数据表的过程解析

《Mysql中设计数据表的过程解析》数据库约束通过NOTNULL、UNIQUE、DEFAULT、主键和外键等规则保障数据完整性,自动校验数据,减少人工错误,提升数据一致性和业务逻辑严谨性,本文介绍My... 目录1.引言2.NOT NULL——制定某列不可以存储NULL值2.UNIQUE——保证某一列的每一

深度解析Nginx日志分析与499状态码问题解决

《深度解析Nginx日志分析与499状态码问题解决》在Web服务器运维和性能优化过程中,Nginx日志是排查问题的重要依据,本文将围绕Nginx日志分析、499状态码的成因、排查方法及解决方案展开讨论... 目录前言1. Nginx日志基础1.1 Nginx日志存放位置1.2 Nginx日志格式2. 499

MySQL CTE (Common Table Expressions)示例全解析

《MySQLCTE(CommonTableExpressions)示例全解析》MySQL8.0引入CTE,支持递归查询,可创建临时命名结果集,提升复杂查询的可读性与维护性,适用于层次结构数据处... 目录基本语法CTE 主要特点非递归 CTE简单 CTE 示例多 CTE 示例递归 CTE基本递归 CTE 结

Spring Boot 3.x 中 WebClient 示例详解析

《SpringBoot3.x中WebClient示例详解析》SpringBoot3.x中WebClient是响应式HTTP客户端,替代RestTemplate,支持异步非阻塞请求,涵盖GET... 目录Spring Boot 3.x 中 WebClient 全面详解及示例1. WebClient 简介2.

在MySQL中实现冷热数据分离的方法及使用场景底层原理解析

《在MySQL中实现冷热数据分离的方法及使用场景底层原理解析》MySQL冷热数据分离通过分表/分区策略、数据归档和索引优化,将频繁访问的热数据与冷数据分开存储,提升查询效率并降低存储成本,适用于高并发... 目录实现冷热数据分离1. 分表策略2. 使用分区表3. 数据归档与迁移在mysql中实现冷热数据分

C#解析JSON数据全攻略指南

《C#解析JSON数据全攻略指南》这篇文章主要为大家详细介绍了使用C#解析JSON数据全攻略指南,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、为什么jsON是C#开发必修课?二、四步搞定网络JSON数据1. 获取数据 - HttpClient最佳实践2. 动态解析 - 快速

Spring Boot3.0新特性全面解析与应用实战

《SpringBoot3.0新特性全面解析与应用实战》SpringBoot3.0作为Spring生态系统的一个重要里程碑,带来了众多令人兴奋的新特性和改进,本文将深入解析SpringBoot3.0的... 目录核心变化概览Java版本要求提升迁移至Jakarta EE重要新特性详解1. Native Ima

spring中的@MapperScan注解属性解析

《spring中的@MapperScan注解属性解析》@MapperScan是Spring集成MyBatis时自动扫描Mapper接口的注解,简化配置并支持多数据源,通过属性控制扫描路径和过滤条件,利... 目录一、核心功能与作用二、注解属性解析三、底层实现原理四、使用场景与最佳实践五、注意事项与常见问题六