深度学习之视觉特征提取器——VGG系列

2024-04-22 13:44

本文主要是介绍深度学习之视觉特征提取器——VGG系列,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

VGG

提出论文:1409.1556.pdf (arxiv.org)

引入

距离VGG网络的提出已经约十年,很难想象在深度学习高速发展的今天,一个模型能够历经十年而不衰。虽然如今已经有VGG的大量替代品,但是笔者研究的一些领域仍然有大量工作选择使用VGG。有人说VGG开创了基于一些基础结构(如Conv,Linear,RNN)进行模型堆叠的开端,但笔者更以为是其对深层次网络的研究和特征提取器这一概念的广泛使用作出了巨大贡献(但并不是首次提出)。深度学习高速发展之外,是硬件算力的高速发展。10年前使用VGG某种意义上也可以看成现如今使用LLM。VGG是由Visual Geometry Group中的两位大佬提出(VGG名字的由来就显而易见了)

模型介绍

请添加图片描述

3×3卷积核

在VGG中,很大的贡献之一是使用了3×3卷积核以替代5×5卷积核、7×7卷积核等。这样的优点有两个:

(1)对相同大小的图像使用更小感受野的卷积,就会导致卷积的层数更多,层数更多意味着对非线性的拟合更好。这一点可以类比于高次函数可以拟合的曲线更多、更逼近。比如 y = a x + b y=ax+b y=ax+b就难以拟合曲线,而 y = ( a x + b ) ( c x + d ) y=(ax+b)(cx+d) y=(ax+b)(cx+d)就可以拟合部分曲线。

(2)对相同大小的图像使用3×3的卷积所需要的参数量更少。如图,如果用作者论文中举的例子就是,对一个7×7的感受野使用3×3的卷积总共需要 3 × ( 3 2 C 2 ) = 27 C 2 3\times(3^2C^2)=27C^2 3×(32C2)=27C2的参数,而使用7×7的卷积核则需要 ( 7 2 C 2 ) = 49 C 2 (7^2C^2)=49C^2 (72C2)=49C2的参数,其中 C C C代表通道数。

补充解释:一个3×3的卷积核参数量是 3 2 3^2 32,如果原始特征有 C C C个通道,输出特征也相应有 C C C个通道,那么每个通道对应相乘就得到 C 2 C^2 C2,而对于一个7×7的感受野,需要分成三个阶段使用3×3的卷积,所以再乘以3。

不同深度的VGG

VGG最常见的有四种模型结构,分别是VGG11,VGG13,VGG16,VGG19,其模型结构分别如下:

请添加图片描述

作者也是通过这四种不同深度的模型验证了更深的网络可以有效提高模型的效果。

代码实现

目前最便捷的方法是使用Pytorch中的torchvision库。

以VGG16举例:

下面是官方给的代码:

from torchvision.io import read_image
from torchvision.models import vgg16, VGG16_Weightsimg = read_image("image.jpg")# Step 1: Initialize model with the best available weights
weights = VGG16_Weights.DEFAULT
model = vgg16(weights=weights)
model.eval()# Step 2: Initialize the inference transforms
preprocess = weights.transforms()# Step 3: Apply inference preprocessing transforms
batch = preprocess(img).unsqueeze(0)# Step 4: Use the model and print the predicted category
prediction = model(batch).squeeze(0).softmax(0)
class_id = prediction.argmax().item()
score = prediction[class_id].item()
category_name = weights.meta["categories"][class_id]
print(f"{category_name}: {100 * score:.1f}%")

如果要封装成一个类,并控制输出的维度,可以使用如下代码:

import torch.nn as nn
import torchvision.models as models
from torchvision.models.vgg import VGG16_Weightsclass VGG16(nn.Module):def __init__(self):super(VGG16, self).__init__()self.vgg = models.vgg16(weights=VGG16_Weights.IMAGENET1K_V1)self.dim_feat = 4096self.vgg.classifier[6] = nn.Linear(4096, self.dim_feat)def forward(self, x):output = self.vgg(x)return output

当然,VGG并不止VGG16可以调用,下面是Pytorch官方给出的表格:

WeightAcc@1Acc@5ParamsGFLOPSRecipe
VGG11_BN_Weights.IMAGENET1K_V170.3789.81132.9M7.61link
VGG11_Weights.IMAGENET1K_V169.0288.628132.9M7.61link
VGG13_BN_Weights.IMAGENET1K_V171.58690.374133.1M11.31link
VGG13_Weights.IMAGENET1K_V169.92889.246133.0M11.31link
VGG16_BN_Weights.IMAGENET1K_V173.3691.516138.4M15.47link
VGG16_Weights.IMAGENET1K_V171.59290.382138.4M15.47link
VGG16_Weights.IMAGENET1K_FEATURESnannan138.4M15.47link
VGG19_BN_Weights.IMAGENET1K_V174.21891.842143.7M19.63link
VGG19_Weights.IMAGENET1K_V172.37690.876143.7M19.63link

这篇关于深度学习之视觉特征提取器——VGG系列的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/925944

相关文章

深度解析Python中递归下降解析器的原理与实现

《深度解析Python中递归下降解析器的原理与实现》在编译器设计、配置文件处理和数据转换领域,递归下降解析器是最常用且最直观的解析技术,本文将详细介绍递归下降解析器的原理与实现,感兴趣的小伙伴可以跟随... 目录引言:解析器的核心价值一、递归下降解析器基础1.1 核心概念解析1.2 基本架构二、简单算术表达

深度解析Java @Serial 注解及常见错误案例

《深度解析Java@Serial注解及常见错误案例》Java14引入@Serial注解,用于编译时校验序列化成员,替代传统方式解决运行时错误,适用于Serializable类的方法/字段,需注意签... 目录Java @Serial 注解深度解析1. 注解本质2. 核心作用(1) 主要用途(2) 适用位置3

Java MCP 的鉴权深度解析

《JavaMCP的鉴权深度解析》文章介绍JavaMCP鉴权的实现方式,指出客户端可通过queryString、header或env传递鉴权信息,服务器端支持工具单独鉴权、过滤器集中鉴权及启动时鉴权... 目录一、MCP Client 侧(负责传递,比较简单)(1)常见的 mcpServers json 配置

Maven中生命周期深度解析与实战指南

《Maven中生命周期深度解析与实战指南》这篇文章主要为大家详细介绍了Maven生命周期实战指南,包含核心概念、阶段详解、SpringBoot特化场景及企业级实践建议,希望对大家有一定的帮助... 目录一、Maven 生命周期哲学二、default生命周期核心阶段详解(高频使用)三、clean生命周期核心阶

深度剖析SpringBoot日志性能提升的原因与解决

《深度剖析SpringBoot日志性能提升的原因与解决》日志记录本该是辅助工具,却为何成了性能瓶颈,SpringBoot如何用代码彻底破解日志导致的高延迟问题,感兴趣的小伙伴可以跟随小编一起学习一下... 目录前言第一章:日志性能陷阱的底层原理1.1 日志级别的“双刃剑”效应1.2 同步日志的“吞吐量杀手”

Unity新手入门学习殿堂级知识详细讲解(图文)

《Unity新手入门学习殿堂级知识详细讲解(图文)》Unity是一款跨平台游戏引擎,支持2D/3D及VR/AR开发,核心功能模块包括图形、音频、物理等,通过可视化编辑器与脚本扩展实现开发,项目结构含A... 目录入门概述什么是 UnityUnity引擎基础认知编辑器核心操作Unity 编辑器项目模式分类工程

深度解析Python yfinance的核心功能和高级用法

《深度解析Pythonyfinance的核心功能和高级用法》yfinance是一个功能强大且易于使用的Python库,用于从YahooFinance获取金融数据,本教程将深入探讨yfinance的核... 目录yfinance 深度解析教程 (python)1. 简介与安装1.1 什么是 yfinance?

Python学习笔记之getattr和hasattr用法示例详解

《Python学习笔记之getattr和hasattr用法示例详解》在Python中,hasattr()、getattr()和setattr()是一组内置函数,用于对对象的属性进行操作和查询,这篇文章... 目录1.getattr用法详解1.1 基本作用1.2 示例1.3 原理2.hasattr用法详解2.

深度解析Spring Security 中的 SecurityFilterChain核心功能

《深度解析SpringSecurity中的SecurityFilterChain核心功能》SecurityFilterChain通过组件化配置、类型安全路径匹配、多链协同三大特性,重构了Spri... 目录Spring Security 中的SecurityFilterChain深度解析一、Security

深度解析Nginx日志分析与499状态码问题解决

《深度解析Nginx日志分析与499状态码问题解决》在Web服务器运维和性能优化过程中,Nginx日志是排查问题的重要依据,本文将围绕Nginx日志分析、499状态码的成因、排查方法及解决方案展开讨论... 目录前言1. Nginx日志基础1.1 Nginx日志存放位置1.2 Nginx日志格式2. 499