SPP-Net目标检测算法深度剖析

2024-04-22 07:08

本文主要是介绍SPP-Net目标检测算法深度剖析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

一、引入SPP-Net

二、SPP-Net简介

三、网络架构

四、总结


论文地址 :https://arxiv.org/abs/1406.4729

一、引入SPP-Net

        为何们猛然间对SPP-Net起了好奇之心呢?因为在学习R-CNN系列算法的时候,总有资料提到SPP-Net(Spatial Pyramid Pooling-Net)算法(其实是一种深度学习的网络架构),在处理完R-CNN系列算法之后,打算来看看,这个SPP-Net到底是个什么来头,如果大家对目标检测算法有点兴趣,可以逛逛我的R-CNN系列和YOLO系列算法的博客。

二、SPP-Net简介

        首先要知道SPP-Net是一个解决目标检测问题的算法,其依旧属于two-stage的目标检测算法,也就是先找出候选区域(有相应的成熟的算法),之后在进行分类和回归问题。

        在我学习完Fast R-CNN之后,我发现SPP-Net中的很多算法思想和Fast R-CNN好像,然后我就看了一下两篇论文的发布时间,SPP-Net:2014.6.8,Fast R-CNN:2015 4.30,然后我似乎明白了什么(吸取了SPP-Net的思想)。

三、网络架构

这里写图片描述
图一:SPP-Net网络架构

        首先,讲解一下这个网络是干什么的,用来提取图像特征的,很多人会认为这个网络的结果直接出判断种类结果以及预测框,其实不是的,这个网路架构的输出是一个分类结果,然后我们提取其全连接层,来作为这个图像的特征向量来代替原图的,这个理解很重要。那么接下来就介绍一下这个网络的流程,首先得到一个图片, 然后将图片经过一系列卷积操作然后得到feature maps,然后将feature maps进行三种尺度的池化,相当于将feature maps分割成1x1、2x2、4x4大小的网格,每个网格内的值是网格内所有单元的加和平均(这个就是ROI Pooling),以此来确保输入到全连接层的维度是固定的,然后将这些向量连接,但是不是说只有16+4+1维度,因为feature maps,这里我用的是复数,表明通道数不只是1,像图一中的通道数为256,所以拼接成的向量维度是(16+4+1)x 256。然后通过全连接层6、7,然后再连接一个softmax层,也就是分类层。这样一个图像的分类网络就建好了,那么我们需要这个网络中除了输出层以外的部分来代表一个图像的特征提取。

        之后,在训练好这个特征提取器(ZF-5网络架构,文章用到的)之后就可以进行目标检测了,首先通过候选区域生成算法得到2000个候选区,然后将整张图片resize大小为MIN(w, h),之后进入ZF-5生成feature maps,然后定义了4个等级的spatial pyramid分别是1x1、2x2、3x3、6x6(既然这里是四个等级的池化,那么在训练分类器的时候也要是四个,但是上面是为了举例设置了三种池化窗口),然后将候选区映射到feature maps上,之后将SPP应用在每个候选区中,并拼接成特征向量,之后通过全连接层,然后得到最终的特征向量。如下图二

图二:SPP-Net用于目标检测

        然后我们需要训练多个(这里到底多少个需要根据物体到底有多少个种类来定义)个基于SVM的二分类器,用来判断这个区域到底是背景还是存在物体,数据集如何构建呢?

  • Ground Truth的区域经过特征提取之后形成特征向量推入SVM中,其标签为1(正例)
  • 候选区域与Ground Truth的IoU小于30%的提取的特征,标记为0(负例)
  • 在负样本中,如果一个新加入的负样本与已经加入的负样本的IoU大于70%则不将其加入到负样本中

         这样我就训练好了多个SVM的二分类器,用来给每一个类别去打分,然后选取分数大于0.3的进入候选区进入到后面的NMS算法截断,当然在进入NMS之前需要预测一下回归框的位置,这个部分和R-CNN是一致的,就是说对候选框的中心进行一定比例的位移,将宽高进行一定比例的放缩,目标是为了和Ground Truth更加的贴近。论文中介绍了两种方法,图三是直接预测位置,图四是预测缩放平移比例。

图三:方法一
图四:方法二

四、总结

        如果直接比较SPP-Net和R-CNN的话,我感觉可比性不大,但是Fast R-CNN和SPP-Net却可以擦出不少的火花,而且我感觉SPP-Net的很多思想被Fast R-CNN进行引用

  • 对于使用成熟的卷积神经网络对图像进行特征提取,有一点不同,在训练之后的全连接层的时候,SPP-Net是没有微调特征提取的卷积层的,但是Fast R-CNN进行了微调,这也是为啥Faster R-CNN的独特的训练流程的原因(为了更好的融合RPN网络的Fast R-CNN网络)
  • 当然Fast R-CNN和SPP-Net也有很多相似的部分,为了节省时间,对于候选区域没有在原图中直接选取而是在feature maps上进行选取
  • 二者都使用了ROI Pooling,也就是说将一个区域通过网格的区域池化,进行特征长度的限定,进而更好的连接全连接层

这篇关于SPP-Net目标检测算法深度剖析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/925112

相关文章

Java中Redisson 的原理深度解析

《Java中Redisson的原理深度解析》Redisson是一个高性能的Redis客户端,它通过将Redis数据结构映射为Java对象和分布式对象,实现了在Java应用中方便地使用Redis,本文... 目录前言一、核心设计理念二、核心架构与通信层1. 基于 Netty 的异步非阻塞通信2. 编解码器三、

Java HashMap的底层实现原理深度解析

《JavaHashMap的底层实现原理深度解析》HashMap基于数组+链表+红黑树结构,通过哈希算法和扩容机制优化性能,负载因子与树化阈值平衡效率,是Java开发必备的高效数据结构,本文给大家介绍... 目录一、概述:HashMap的宏观结构二、核心数据结构解析1. 数组(桶数组)2. 链表节点(Node

Java 虚拟线程的创建与使用深度解析

《Java虚拟线程的创建与使用深度解析》虚拟线程是Java19中以预览特性形式引入,Java21起正式发布的轻量级线程,本文给大家介绍Java虚拟线程的创建与使用,感兴趣的朋友一起看看吧... 目录一、虚拟线程简介1.1 什么是虚拟线程?1.2 为什么需要虚拟线程?二、虚拟线程与平台线程对比代码对比示例:三

Python函数作用域与闭包举例深度解析

《Python函数作用域与闭包举例深度解析》Python函数的作用域规则和闭包是编程中的关键概念,它们决定了变量的访问和生命周期,:本文主要介绍Python函数作用域与闭包的相关资料,文中通过代码... 目录1. 基础作用域访问示例1:访问全局变量示例2:访问外层函数变量2. 闭包基础示例3:简单闭包示例4

深入理解Mysql OnlineDDL的算法

《深入理解MysqlOnlineDDL的算法》本文主要介绍了讲解MysqlOnlineDDL的算法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小... 目录一、Online DDL 是什么?二、Online DDL 的三种主要算法2.1COPY(复制法)

C#自动化实现检测并删除PDF文件中的空白页面

《C#自动化实现检测并删除PDF文件中的空白页面》PDF文档在日常工作和生活中扮演着重要的角色,本文将深入探讨如何使用C#编程语言,结合强大的PDF处理库,自动化地检测并删除PDF文件中的空白页面,感... 目录理解PDF空白页的定义与挑战引入Spire.PDF for .NET库核心实现:检测并删除空白页

C#利用Free Spire.XLS for .NET复制Excel工作表

《C#利用FreeSpire.XLSfor.NET复制Excel工作表》在日常的.NET开发中,我们经常需要操作Excel文件,本文将详细介绍C#如何使用FreeSpire.XLSfor.NET... 目录1. 环境准备2. 核心功能3. android示例代码3.1 在同一工作簿内复制工作表3.2 在不同

在.NET项目中嵌入Python代码的实践指南

《在.NET项目中嵌入Python代码的实践指南》在现代开发中,.NET与Python的协作需求日益增长,从机器学习模型集成到科学计算,从脚本自动化到数据分析,然而,传统的解决方案(如HTTPAPI或... 目录一、CSnakes vs python.NET:为何选择 CSnakes?二、环境准备:从 Py

C#使用Spire.Doc for .NET实现HTML转Word的高效方案

《C#使用Spire.Docfor.NET实现HTML转Word的高效方案》在Web开发中,HTML内容的生成与处理是高频需求,然而,当用户需要将HTML页面或动态生成的HTML字符串转换为Wor... 目录引言一、html转Word的典型场景与挑战二、用 Spire.Doc 实现 HTML 转 Word1

深度解析Python中递归下降解析器的原理与实现

《深度解析Python中递归下降解析器的原理与实现》在编译器设计、配置文件处理和数据转换领域,递归下降解析器是最常用且最直观的解析技术,本文将详细介绍递归下降解析器的原理与实现,感兴趣的小伙伴可以跟随... 目录引言:解析器的核心价值一、递归下降解析器基础1.1 核心概念解析1.2 基本架构二、简单算术表达