轻量化网络(七)ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design

本文主要是介绍轻量化网络(七)ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

这篇由旷视提出的ShuffleNet V2主要是直接指标来衡量轻量化网络。过去许多文章都是以FLOPs为指标,FLOPs是一个间接衡量网络的理论指标。在实际中,FLOPs越低并不一定代表网络运行速度越快,比如MobileNet v2 比NASNET-A更快,但是拥有近似的FLOPs。在一些情况下,FLOPs低的网络反而运行速度更慢。因为还涉及到 memory access cost (MAC)以及平台特性。作者因此提出了具有实际应用的ShuffleNet V2。
一、高效网络的结构设计指导
作者通过两个网络ShuffleNet v1和 MobileNet v2来测试分析影响网络性能的因素。作者在两个不同的平台(GPU和ARM)上测试。Figure 2是不同操作占总体时间的比重,虽然卷积操作占了很大的比重,但是 data I/O, data shuffle 和element-wise operations (AddTensor, ReLU, etc)同样占了相当大的比重,所以FLOPs不能足够准确得来衡量网络运行速度。基于以上观察,作者基于以下几个层面进行分析。
在这里插入图片描述
1.相同的特征通道能够最小化MAC
现代网络中使用了大量的深度可分离卷积(depthwise separable convolutions),其中 1 × 1 1 \times 1 1×1卷积核占据了较大的复杂度。假设输入特征大小为 h × w × c 1 h \times w \times c_{1} h×w×c1,输出特征的大小为 h × w × c 2 h \times w \times c_{2} h×w×c2,则 1 × 1 1 \times 1 1×1卷积核的FLOP为 B = h w c 1 c 2 B=hwc_{1}c_{2} B=hwc1c2。假定计算设备有足够大的缓存,因此 M A C = h w ( c 1 + c 2 ) + c 1 c 2 MAC=hw(c_{1}+c_{2})+c_{1}c_{2} MAC=hw(c1+c2)+c1c2,由平均不等式:
M A C ≥ 2 h w B + B / h w MAC\ge2\sqrt{hwB}+B/hw MAC2hwB +B/hw当卷积输入特征通道和输出特征通道相等时,达到最小MAC。该结论是理论上的,因为计算设备的缓存不是足够大的,但是给了我们启发。基于此,我们做了以下实验。在保持FLOPs不变的情况下,改变输入通道数和输出通道数的比例。很明显,当 c 1 : c 2 = 1 : 1 c_{1}:c_{2}=1:1 c1:c2=1:1时,网络运行速度最快。
在这里插入图片描述
2.过多的组卷积提高了MAC
组卷积(group convolution)是当今许多网络的核心,它降低了网络复杂度同时提高网络性能。然后过多的组卷积会导致更多的MAC。 1 × 1 1 \times 1 1×1卷积核的FLOP和MAC关如下:
M A C = h w ( c 1 + c 2 ) + c 1 c 2 / g = h w c 1 + B g / c 1 + B / h w MAC=hw(c_{1}+c_{2})+c_{1}c_{2}/g \\ \quad \quad \quad =hwc_{1}+Bg/c_{1}+B/hw MAC=hw(c1+c2)+c1c2/g=hwc1+Bg/c1+B/hw
其中 g g g表示组卷积的分组数, B = h w c 1 c 2 / g B=hwc_{1}c_{2}/g B=hwc1c2/g,从以上关系可以看出,随着 g g g的增加, M A C MAC MAC也逐渐增加。
作者做了实验,保持相同FLOPs的情况下,实验不同的分组数对网络运行速度的影响。从Table 2中可知,越大的分组数,网络运行速度越慢。所以需要小心得使用组卷积。分组卷积随着分组数量的提高不仅仅带来网络性能提升还带来了大量计算消耗。在这里插入图片描述
3.网络碎片化减低了并行度
在GoogleNet系列和许多自动生成的结构中,均使用一种“多路径”单元。比如在 NASNET-A 中,路径达到13个,而ResNet达到2或3个。这种结构能够提升网络性能,但是会降低效率因为不利于GPU的并行运算,还会引入内核启动和同步。
在Table 1中作者做了实验,在一个block中有1到4个卷积串行或并行(sequence or in parallel)。从结果可以看出,并行卷积核越多,网络越慢;相同数量卷积核的情况下,并行的网络比串行的慢。
在这里插入图片描述
4.Element-wise操作不能忽略
在轻量化网络中,Element-wise操作占了较大比重,比如ReLU, AddTensor, AddBias等。这些操作有很低的FLOPs但是有较高的MAC。在Table 4中,作者做了分别移除Relu或是short-cut操作,网络速度均有提升。
在这里插入图片描述

二、ShuffleNet V2网络结构
作者基于以上4个实验结果在ShuffleNet V1上(Figure 3(a)(b))重新设计。首先在单元开始将特征通道分离,将通道分为 c ′ c' c c − c ′ c-c' cc。根据实验结果1将一个分支上的卷积核的输入输出特征的通道数设置相同。根据实验结果2,不再使用组卷积。根据实验结果4去除Add操作,改为Concat
在这里插入图片描述

三、实验结果
在这里插入图片描述

在这里插入图片描述

这篇关于轻量化网络(七)ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/441920

相关文章

Python实现简单封装网络请求的示例详解

《Python实现简单封装网络请求的示例详解》这篇文章主要为大家详细介绍了Python实现简单封装网络请求的相关知识,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录安装依赖核心功能说明1. 类与方法概览2.NetHelper类初始化参数3.ApiResponse类属性与方法使用实

Debian 13升级后网络转发等功能异常怎么办? 并非错误而是管理机制变更

《Debian13升级后网络转发等功能异常怎么办?并非错误而是管理机制变更》很多朋友反馈,更新到Debian13后网络转发等功能异常,这并非BUG而是Debian13Trixie调整... 日前 Debian 13 Trixie 发布后已经有众多网友升级到新版本,只不过升级后发现某些功能存在异常,例如网络转

Python开发简易网络服务器的示例详解(新手入门)

《Python开发简易网络服务器的示例详解(新手入门)》网络服务器是互联网基础设施的核心组件,它本质上是一个持续运行的程序,负责监听特定端口,本文将使用Python开发一个简单的网络服务器,感兴趣的小... 目录网络服务器基础概念python内置服务器模块1. HTTP服务器模块2. Socket服务器模块

Go语言网络故障诊断与调试技巧

《Go语言网络故障诊断与调试技巧》在分布式系统和微服务架构的浪潮中,网络编程成为系统性能和可靠性的核心支柱,从高并发的API服务到实时通信应用,网络的稳定性直接影响用户体验,本文面向熟悉Go基本语法和... 目录1. 引言2. Go 语言网络编程的优势与特色2.1 简洁高效的标准库2.2 强大的并发模型2.

Linux中压缩、网络传输与系统监控工具的使用完整指南

《Linux中压缩、网络传输与系统监控工具的使用完整指南》在Linux系统管理中,压缩与传输工具是数据备份和远程协作的桥梁,而系统监控工具则是保障服务器稳定运行的眼睛,下面小编就来和大家详细介绍一下它... 目录引言一、压缩与解压:数据存储与传输的优化核心1. zip/unzip:通用压缩格式的便捷操作2.

Linux网络配置之网桥和虚拟网络的配置指南

《Linux网络配置之网桥和虚拟网络的配置指南》这篇文章主要为大家详细介绍了Linux中配置网桥和虚拟网络的相关方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 一、网桥的配置在linux系统中配置一个新的网桥主要涉及以下几个步骤:1.为yum仓库做准备,安装组件epel-re

python如何下载网络文件到本地指定文件夹

《python如何下载网络文件到本地指定文件夹》这篇文章主要为大家详细介绍了python如何实现下载网络文件到本地指定文件夹,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下...  在python中下载文件到本地指定文件夹可以通过以下步骤实现,使用requests库处理HTTP请求,并结合o

Linux高并发场景下的网络参数调优实战指南

《Linux高并发场景下的网络参数调优实战指南》在高并发网络服务场景中,Linux内核的默认网络参数往往无法满足需求,导致性能瓶颈、连接超时甚至服务崩溃,本文基于真实案例分析,从参数解读、问题诊断到优... 目录一、问题背景:当并发连接遇上性能瓶颈1.1 案例环境1.2 初始参数分析二、深度诊断:连接状态与

Qt实现网络数据解析的方法总结

《Qt实现网络数据解析的方法总结》在Qt中解析网络数据通常涉及接收原始字节流,并将其转换为有意义的应用层数据,这篇文章为大家介绍了详细步骤和示例,感兴趣的小伙伴可以了解下... 目录1. 网络数据接收2. 缓冲区管理(处理粘包/拆包)3. 常见数据格式解析3.1 jsON解析3.2 XML解析3.3 自定义

Linux系统配置NAT网络模式的详细步骤(附图文)

《Linux系统配置NAT网络模式的详细步骤(附图文)》本文详细指导如何在VMware环境下配置NAT网络模式,包括设置主机和虚拟机的IP地址、网关,以及针对Linux和Windows系统的具体步骤,... 目录一、配置NAT网络模式二、设置虚拟机交换机网关2.1 打开虚拟机2.2 管理员授权2.3 设置子