【图像分类】【深度学习】【Pytorch版本】VggNet模型算法详解

2023-11-06 19:28

本文主要是介绍【图像分类】【深度学习】【Pytorch版本】VggNet模型算法详解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【图像分类】【深度学习】【Pytorch版本】VggNet模型算法详解

文章目录

  • 【图像分类】【深度学习】【Pytorch版本】VggNet模型算法详解
  • 前言
  • VggNet讲解
    • 感受野
    • 感受野的计算公式
    • 3x3的卷积核的使用
    • VggNet模型结构
  • VGGnet Pytorch代码
  • 完整代码
  • 总结


前言

Vgg(Visual Geometry Group)是由牛津大学的Simonyan, Karen等人在《Very deep convolutional networks for large-scale image recognition【ICLR-2015】》【论文地址】一文中提出的模型,核心思想是通过使用小尺寸的卷积核(通常为3x3),来代替较大感受野的卷积层,通过重复堆叠多个卷积块来增加网络深度,并通过逐渐减小特征图尺寸和增加特征通道数来扩展网络规模。


VggNet讲解

感受野

感受野(Receptive Field)是指在神经网络中,每个网络层输出的特征图中的一个像素点映射回原始输入图像中的区域大小,网络层越深,其输出特征的元素对应感受野越大。

在卷积神经网络(CNN)和全连接神经网络(FCN)中,感受野的计算和作用存在区别:

  1. 在全连接神经网络中,其输出的每个特征都受到所有输入特征影响,每个神经元都与所有输入特征相连接,全连接层中的每个神经元都可以感知整个输入特征的信息,全连接网络可以对输入数据进行全局建模。

全连接层通常用于网络的最后几层,用于对从卷积层中提取的局部特征进行整合和分类。

  1. 在卷积神经网络中,其输出的特征图(feature map)上的每个像素特征只受到输入特征图上局部区域影响,每个神经元每次只与输入特征图上局部区域相连接,局部区域大小为卷积核的大小,卷积层中的每个神经元只可以感知局部输入特征的信息,因此卷积神经网络需要多层卷积层的堆叠使得网络能够逐渐扩大感受野,从而捕捉到更大范围的特征信息。

卷积层中的每个神经元只能感知输入特征图的局部区域,如绿色特征图的某像素特征(红色方块)在青蓝色特征图上的感受野(红色方框),通过多个神经元的组合,卷积神经网络可以提取输入图像的全局特征,如黄色特征图的像素特征就能完整获取青蓝色特征图的所有信息。这种局部感知的特性使得卷积神经网络在图像处理和计算机视觉任务中表现出色。

感受野的计算公式

卷积神经网络通过大量的卷积层、归一化层、激活层和池化层进行堆叠构成完整的网络结构,而卷积层和池化均会改变特征图的大小,从而实现特征之间的映射和转换,因此卷积核或池化核(kernel_size)、和步长(stride)参数共同决定了输出结果对应的感受野大小。
k n {k_n} kn s n {s_n} sn r n {r_n} rn分别表示第 n n n层的卷积核尺寸、步长和感受野。卷积神经网络的感受野计算公式在表达上有些许的差异,博主给出了不同的公式表达的含义:

  1. 自底向上的方式: r n = r n − 1 + ( k n − 1 ) Π i = 1 n − 1 s i {r_n} = {r_{n - 1}} + ({k_n} - 1)\Pi _{i = 1}^{n - 1}{s_i} rn=rn1+(kn1)Πi=1n1si其中 n ≥ 2 , r 0 = 1 , r 1 = k 1 n \ge 2,{r_0} = 1,{r_1} = k_1 n2,r0=1,r1=k1
  2. 自顶向下的方式: r n = ( r n + 1 − 1 ) s i + k {r_n} = ({r_{n + 1}} - 1){s_i} + k rn=(rn+11)si+k其中 r n = 1 {r_n} = 1 rn=1

博主将通过一个案例详细说明俩种方法的区别,如下图所示,原始图像输入 r 0 = 7 × 7 {r_0}=7×7 r0=7×7,假设共经历3个卷积层:此时三个卷积层的输出依次为 r 1 = 5 × 5 {r_1}=5×5 r1=5×5 r 2 = 3 × 3 {r_2}=3×3 r2=3×3 r 3 = 1 × 1 {r_3}=1×1 r3=1×1

说明俩种方法计算感受野的区别如下表所示:

自底向上自顶向下
n n n个网络层输出的特征图分别在原始图像上的感受野大小 n n n层网络输出的特征图分别在前 n n n层特征图上的感受野大小
r 0 = 1 {r_0}=1 r0=1Conv(3): r 3 = 1 {r_3}=1 r3=1
Conv(1): r 1 = 3 {r_1}=3 r1=3Conv(2): r 2 = ( 1 − 1 ) × 1 + 3 = 3 {r_2}=(1-1)×1+3=3 r2=(11)×1+3=3
Conv(2): r 2 = 3 + ( 3 − 1 ) × 1 = 5 {r_2}=3+(3-1)×1=5 r2=3+(31)×1=5Conv(1): r 1 = ( 3 − 1 ) × 1 + 3 = 5 {r_1}=(3-1)×1+3=5 r1=(31)×1+3=5
Conv(3): r 2 = 5 + ( 3 − 1 ) × 1 = 7 {r_2}=5+(3-1)×1=7 r2=5+(31)×1=7 r 0 = ( 3 − 1 ) × 1 + 5 = 7 {r_0}=(3-1)×1+5=7 r0=(31)×1+5=7

假设都是计算第三个卷积层的输出特征图像素点在原始输入图像上的感受野,二者的大小是一致的。

3x3的卷积核的使用

3x3 卷积核是能够感受到上下、左右、重点的最小的感受野尺寸,论文中提到,堆叠两个3x3的卷积核的感受野等同于1个5x5的卷积核,堆叠三个3x3的卷积核的感受野等同于1个7x7的卷积核,并且使用3x3卷积核替换后可以减少参数。由于感受野相同,3个3x3的卷积,使用了3个非线性激活函数,增加了非线性表达能力。

卷积核尺寸卷积核感受野卷积核参数(假设输入输出channel为C)
3×3 r 1 = 3 {r_1}=3 r1=3 r 2 = 3 + ( 3 − 1 ) × 1 = 5 {r_2}=3+(3-1)×1=5 r2=3+(31)×1=5 r 2 = 5 + ( 3 − 1 ) × 1 = 7 {r_2}=5+(3-1)×1=7 r2=5+(31)×1=73×3×C×C= 9 C 2 9{C^2} 9C2 18 C 2 18{C^2} 18C2 27 C 2 27{C^2} 27C2
5×5 r 1 = 5 {r_1}=5 r1=55×5×C×C= 25 C 2 25{C^2} 25C2> 18 C 2 18{C^2} 18C2
7×7 r 1 = 7 {r_1}=7 r1=77×7×C×C= 49 C 2 49{C^2} 49C2> 27 C 2 27{C^2} 27C2

总而言之,使用3x3卷积核堆叠的形式,既增加了网络层数又减少了参数量。

VggNet模型结构

下图是原论文给出的关于VGGnet模型结构的详细示意图:

注:卷积层的参数卷积层的参数被表示为"卷积场大小-通道数",ReLU激活函数在表中没有显示

与AlexNet⼀样,VggNet可以分为两部分:第⼀部分 (backbone) 主要由卷积层和池化层(汇聚层)组成,第⼆部分由全连接层 (分类器) 组成。

VggNet的亮点说明
小卷积核堆叠多个3×3的卷积核来替代大的卷积核,部分使用1x1卷积核的(C结构网络中),以减少所需参数
小池化核全部为2×2的池化核
更深更宽的网络结构卷积核专注于扩大通道数,池化专注于缩小高和宽,使得模型更深更宽的同时,计算量的增加不是很剧烈
去掉了LRN层LRN浪费了更多的内存和时间并且性能没有太大提升

VGG的预训练权重是使用ImageNet数据集进行训练而来:

# 官方的预训练权重
model_urls = {'vgg11': 'https://download.pytorch.org/models/vgg11-bbd30ac9.pth','vgg13': 'https://download.pytorch.org/models/vgg13-c768596a.pth','vgg16': 'https://download.pytorch.org/models/vgg16-397923af.pth','vgg19': 'https://download.pytorch.org/models/vgg19-dcbb9e9d.pth'
}

VGGnet Pytorch代码

backbone部分

# VGGnet的四种网络配置
cfgs = {'vgg11': [64, 'M', 128, 'M', 256, 256, 'M', 512, 512, 'M', 512, 512, 'M'],'vgg13': [64, 64, 'M', 128, 128, 'M', 256, 256, 'M', 512, 512, 'M', 512, 512, 'M'],'vgg16': [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 'M', 512, 512, 512, 'M', 512, 512, 512, 'M'],'vgg19': [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 256, 'M', 512, 512, 512, 512, 'M', 512, 512, 512, 512, 'M'],
}
def make_features(cfg: list):layers = []# RGB图像3通道in_channels = 3for v in cfg:# 池化层if v == "M":# 全部为2×2的池化核layers += [nn.MaxPool2d(kernel_size=2, stride=2)]else:# 卷积层组:conv2d+ReLUconv2d = nn.Conv2d(in_channels, v, kernel_size=3, padding=1)layers += [conv2d, nn.ReLU(True)]in_channels = vreturn nn.Sequential(*layers)

分类器部分

        # 分类器部分:FC+ReLU+Dropoutself.classifier = nn.Sequential(nn.Linear(512*7*7, 4096),nn.ReLU(True),nn.Dropout(p=0.5),nn.Linear(4096, 4096),nn.ReLU(True),nn.Dropout(p=0.5),nn.Linear(4096, num_classes))

完整代码

import torch.nn as nn
import torch
from torchsummary import summary# 官方的预训练权重
model_urls = {'vgg11': 'https://download.pytorch.org/models/vgg11-bbd30ac9.pth','vgg13': 'https://download.pytorch.org/models/vgg13-c768596a.pth','vgg16': 'https://download.pytorch.org/models/vgg16-397923af.pth','vgg19': 'https://download.pytorch.org/models/vgg19-dcbb9e9d.pth'
}class VGG(nn.Module):def __init__(self, features, num_classes=1000, init_weights=False):super(VGG, self).__init__()# backbone部分self.features = features# 分类器部分:FC+ReLU+Dropoutself.classifier = nn.Sequential(nn.Linear(512*7*7, 4096),nn.ReLU(True),nn.Dropout(p=0.5),nn.Linear(4096, 4096),nn.ReLU(True),nn.Dropout(p=0.5),nn.Linear(4096, num_classes))# 对模型的权重进行初始化操作if init_weights:self._initialize_weights()def forward(self, x):# N x 3 x 224 x 224x = self.features(x)# N x 512 x 7 x 7x = torch.flatten(x, start_dim=1)# N x 512*7*7x = self.classifier(x)return xdef _initialize_weights(self):for m in self.modules():if isinstance(m, nn.Conv2d):# Conv2d的权重从均匀分布中随机初始化nn.init.xavier_uniform_(m.weight)if m.bias is not None:# Conv2d的偏置置0nn.init.constant_(m.bias, 0)elif isinstance(m, nn.Linear):# FC的权重从均匀分布中随机初始化nn.init.xavier_uniform_(m.weight)# FC的偏置置0nn.init.constant_(m.bias, 0)def make_features(cfg: list):layers = []# RGB图像3通道in_channels = 3for v in cfg:# 池化层if v == "M":# 全部为2×2的池化核layers += [nn.MaxPool2d(kernel_size=2, stride=2)]else:# 卷积层组:conv2d+ReLUconv2d = nn.Conv2d(in_channels, v, kernel_size=3, padding=1)layers += [conv2d, nn.ReLU(True)]in_channels = vreturn nn.Sequential(*layers)# VGGnet的四种网络配置
cfgs = {'vgg11': [64, 'M', 128, 'M', 256, 256, 'M', 512, 512, 'M', 512, 512, 'M'],'vgg13': [64, 64, 'M', 128, 128, 'M', 256, 256, 'M', 512, 512, 'M', 512, 512, 'M'],'vgg16': [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 'M', 512, 512, 512, 'M', 512, 512, 512, 'M'],'vgg19': [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 256, 'M', 512, 512, 512, 512, 'M', 512, 512, 512, 512, 'M'],
}def vgg(model_name="vgg16", **kwargs):assert model_name in cfgs, "Warning: model number {} not in cfgs dict!".format(model_name)cfg = cfgs[model_name]model = VGG(make_features(cfg), **kwargs)return modelif __name__ == '__main__':device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")model = vgg("vgg16").to(device)summary(model, input_size=(3, 224, 224))

summary可以打印网络结构和参数,方便查看搭建好的网络结构。


总结

尽可能简单、详细的介绍了深度可分卷积的原理和卷积过程,讲解了VGGnet模型的结构和pytorch代码。

这篇关于【图像分类】【深度学习】【Pytorch版本】VggNet模型算法详解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/358589

相关文章

一文深入详解Python的secrets模块

《一文深入详解Python的secrets模块》在构建涉及用户身份认证、权限管理、加密通信等系统时,开发者最不能忽视的一个问题就是“安全性”,Python在3.6版本中引入了专门面向安全用途的secr... 目录引言一、背景与动机:为什么需要 secrets 模块?二、secrets 模块的核心功能1. 基

一文详解MySQL如何设置自动备份任务

《一文详解MySQL如何设置自动备份任务》设置自动备份任务可以确保你的数据库定期备份,防止数据丢失,下面我们就来详细介绍一下如何使用Bash脚本和Cron任务在Linux系统上设置MySQL数据库的自... 目录1. 编写备份脚本1.1 创建并编辑备份脚本1.2 给予脚本执行权限2. 设置 Cron 任务2

一文详解如何在idea中快速搭建一个Spring Boot项目

《一文详解如何在idea中快速搭建一个SpringBoot项目》IntelliJIDEA作为Java开发者的‌首选IDE‌,深度集成SpringBoot支持,可一键生成项目骨架、智能配置依赖,这篇文... 目录前言1、创建项目名称2、勾选需要的依赖3、在setting中检查maven4、编写数据源5、开启热

Python常用命令提示符使用方法详解

《Python常用命令提示符使用方法详解》在学习python的过程中,我们需要用到命令提示符(CMD)进行环境的配置,:本文主要介绍Python常用命令提示符使用方法的相关资料,文中通过代码介绍的... 目录一、python环境基础命令【Windows】1、检查Python是否安装2、 查看Python的安

HTML5 搜索框Search Box详解

《HTML5搜索框SearchBox详解》HTML5的搜索框是一个强大的工具,能够有效提升用户体验,通过结合自动补全功能和适当的样式,可以创建出既美观又实用的搜索界面,这篇文章给大家介绍HTML5... html5 搜索框(Search Box)详解搜索框是一个用于输入查询内容的控件,通常用于网站或应用程

Python中使用uv创建环境及原理举例详解

《Python中使用uv创建环境及原理举例详解》uv是Astral团队开发的高性能Python工具,整合包管理、虚拟环境、Python版本控制等功能,:本文主要介绍Python中使用uv创建环境及... 目录一、uv工具简介核心特点:二、安装uv1. 通过pip安装2. 通过脚本安装验证安装:配置镜像源(可

C++ 函数 strftime 和时间格式示例详解

《C++函数strftime和时间格式示例详解》strftime是C/C++标准库中用于格式化日期和时间的函数,定义在ctime头文件中,它将tm结构体中的时间信息转换为指定格式的字符串,是处理... 目录C++ 函数 strftipythonme 详解一、函数原型二、功能描述三、格式字符串说明四、返回值五

LiteFlow轻量级工作流引擎使用示例详解

《LiteFlow轻量级工作流引擎使用示例详解》:本文主要介绍LiteFlow是一个灵活、简洁且轻量的工作流引擎,适合用于中小型项目和微服务架构中的流程编排,本文给大家介绍LiteFlow轻量级工... 目录1. LiteFlow 主要特点2. 工作流定义方式3. LiteFlow 流程示例4. LiteF

CSS3中的字体及相关属性详解

《CSS3中的字体及相关属性详解》:本文主要介绍了CSS3中的字体及相关属性,详细内容请阅读本文,希望能对你有所帮助... 字体网页字体的三个来源:用户机器上安装的字体,放心使用。保存在第三方网站上的字体,例如Typekit和Google,可以link标签链接到你的页面上。保存在你自己Web服务器上的字

使用jenv工具管理多个JDK版本的方法步骤

《使用jenv工具管理多个JDK版本的方法步骤》jenv是一个开源的Java环境管理工具,旨在帮助开发者在同一台机器上轻松管理和切换多个Java版本,:本文主要介绍使用jenv工具管理多个JD... 目录一、jenv到底是干啥的?二、jenv的核心功能(一)管理多个Java版本(二)支持插件扩展(三)环境隔