SPP-Net目标检测算法深度剖析

2024-04-22 07:08

本文主要是介绍SPP-Net目标检测算法深度剖析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

一、引入SPP-Net

二、SPP-Net简介

三、网络架构

四、总结


论文地址 :https://arxiv.org/abs/1406.4729

一、引入SPP-Net

        为何们猛然间对SPP-Net起了好奇之心呢?因为在学习R-CNN系列算法的时候,总有资料提到SPP-Net(Spatial Pyramid Pooling-Net)算法(其实是一种深度学习的网络架构),在处理完R-CNN系列算法之后,打算来看看,这个SPP-Net到底是个什么来头,如果大家对目标检测算法有点兴趣,可以逛逛我的R-CNN系列和YOLO系列算法的博客。

二、SPP-Net简介

        首先要知道SPP-Net是一个解决目标检测问题的算法,其依旧属于two-stage的目标检测算法,也就是先找出候选区域(有相应的成熟的算法),之后在进行分类和回归问题。

        在我学习完Fast R-CNN之后,我发现SPP-Net中的很多算法思想和Fast R-CNN好像,然后我就看了一下两篇论文的发布时间,SPP-Net:2014.6.8,Fast R-CNN:2015 4.30,然后我似乎明白了什么(吸取了SPP-Net的思想)。

三、网络架构

这里写图片描述
图一:SPP-Net网络架构

        首先,讲解一下这个网络是干什么的,用来提取图像特征的,很多人会认为这个网络的结果直接出判断种类结果以及预测框,其实不是的,这个网路架构的输出是一个分类结果,然后我们提取其全连接层,来作为这个图像的特征向量来代替原图的,这个理解很重要。那么接下来就介绍一下这个网络的流程,首先得到一个图片, 然后将图片经过一系列卷积操作然后得到feature maps,然后将feature maps进行三种尺度的池化,相当于将feature maps分割成1x1、2x2、4x4大小的网格,每个网格内的值是网格内所有单元的加和平均(这个就是ROI Pooling),以此来确保输入到全连接层的维度是固定的,然后将这些向量连接,但是不是说只有16+4+1维度,因为feature maps,这里我用的是复数,表明通道数不只是1,像图一中的通道数为256,所以拼接成的向量维度是(16+4+1)x 256。然后通过全连接层6、7,然后再连接一个softmax层,也就是分类层。这样一个图像的分类网络就建好了,那么我们需要这个网络中除了输出层以外的部分来代表一个图像的特征提取。

        之后,在训练好这个特征提取器(ZF-5网络架构,文章用到的)之后就可以进行目标检测了,首先通过候选区域生成算法得到2000个候选区,然后将整张图片resize大小为MIN(w, h),之后进入ZF-5生成feature maps,然后定义了4个等级的spatial pyramid分别是1x1、2x2、3x3、6x6(既然这里是四个等级的池化,那么在训练分类器的时候也要是四个,但是上面是为了举例设置了三种池化窗口),然后将候选区映射到feature maps上,之后将SPP应用在每个候选区中,并拼接成特征向量,之后通过全连接层,然后得到最终的特征向量。如下图二

图二:SPP-Net用于目标检测

        然后我们需要训练多个(这里到底多少个需要根据物体到底有多少个种类来定义)个基于SVM的二分类器,用来判断这个区域到底是背景还是存在物体,数据集如何构建呢?

  • Ground Truth的区域经过特征提取之后形成特征向量推入SVM中,其标签为1(正例)
  • 候选区域与Ground Truth的IoU小于30%的提取的特征,标记为0(负例)
  • 在负样本中,如果一个新加入的负样本与已经加入的负样本的IoU大于70%则不将其加入到负样本中

         这样我就训练好了多个SVM的二分类器,用来给每一个类别去打分,然后选取分数大于0.3的进入候选区进入到后面的NMS算法截断,当然在进入NMS之前需要预测一下回归框的位置,这个部分和R-CNN是一致的,就是说对候选框的中心进行一定比例的位移,将宽高进行一定比例的放缩,目标是为了和Ground Truth更加的贴近。论文中介绍了两种方法,图三是直接预测位置,图四是预测缩放平移比例。

图三:方法一
图四:方法二

四、总结

        如果直接比较SPP-Net和R-CNN的话,我感觉可比性不大,但是Fast R-CNN和SPP-Net却可以擦出不少的火花,而且我感觉SPP-Net的很多思想被Fast R-CNN进行引用

  • 对于使用成熟的卷积神经网络对图像进行特征提取,有一点不同,在训练之后的全连接层的时候,SPP-Net是没有微调特征提取的卷积层的,但是Fast R-CNN进行了微调,这也是为啥Faster R-CNN的独特的训练流程的原因(为了更好的融合RPN网络的Fast R-CNN网络)
  • 当然Fast R-CNN和SPP-Net也有很多相似的部分,为了节省时间,对于候选区域没有在原图中直接选取而是在feature maps上进行选取
  • 二者都使用了ROI Pooling,也就是说将一个区域通过网格的区域池化,进行特征长度的限定,进而更好的连接全连接层

这篇关于SPP-Net目标检测算法深度剖析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/925112

相关文章

C#使用Spire.Doc for .NET实现HTML转Word的高效方案

《C#使用Spire.Docfor.NET实现HTML转Word的高效方案》在Web开发中,HTML内容的生成与处理是高频需求,然而,当用户需要将HTML页面或动态生成的HTML字符串转换为Wor... 目录引言一、html转Word的典型场景与挑战二、用 Spire.Doc 实现 HTML 转 Word1

深度解析Python中递归下降解析器的原理与实现

《深度解析Python中递归下降解析器的原理与实现》在编译器设计、配置文件处理和数据转换领域,递归下降解析器是最常用且最直观的解析技术,本文将详细介绍递归下降解析器的原理与实现,感兴趣的小伙伴可以跟随... 目录引言:解析器的核心价值一、递归下降解析器基础1.1 核心概念解析1.2 基本架构二、简单算术表达

深度解析Java @Serial 注解及常见错误案例

《深度解析Java@Serial注解及常见错误案例》Java14引入@Serial注解,用于编译时校验序列化成员,替代传统方式解决运行时错误,适用于Serializable类的方法/字段,需注意签... 目录Java @Serial 注解深度解析1. 注解本质2. 核心作用(1) 主要用途(2) 适用位置3

Java MCP 的鉴权深度解析

《JavaMCP的鉴权深度解析》文章介绍JavaMCP鉴权的实现方式,指出客户端可通过queryString、header或env传递鉴权信息,服务器端支持工具单独鉴权、过滤器集中鉴权及启动时鉴权... 目录一、MCP Client 侧(负责传递,比较简单)(1)常见的 mcpServers json 配置

Maven中生命周期深度解析与实战指南

《Maven中生命周期深度解析与实战指南》这篇文章主要为大家详细介绍了Maven生命周期实战指南,包含核心概念、阶段详解、SpringBoot特化场景及企业级实践建议,希望对大家有一定的帮助... 目录一、Maven 生命周期哲学二、default生命周期核心阶段详解(高频使用)三、clean生命周期核心阶

深度剖析SpringBoot日志性能提升的原因与解决

《深度剖析SpringBoot日志性能提升的原因与解决》日志记录本该是辅助工具,却为何成了性能瓶颈,SpringBoot如何用代码彻底破解日志导致的高延迟问题,感兴趣的小伙伴可以跟随小编一起学习一下... 目录前言第一章:日志性能陷阱的底层原理1.1 日志级别的“双刃剑”效应1.2 同步日志的“吞吐量杀手”

深度解析Python yfinance的核心功能和高级用法

《深度解析Pythonyfinance的核心功能和高级用法》yfinance是一个功能强大且易于使用的Python库,用于从YahooFinance获取金融数据,本教程将深入探讨yfinance的核... 目录yfinance 深度解析教程 (python)1. 简介与安装1.1 什么是 yfinance?

Python脚本轻松实现检测麦克风功能

《Python脚本轻松实现检测麦克风功能》在进行音频处理或开发需要使用麦克风的应用程序时,确保麦克风功能正常是非常重要的,本文将介绍一个简单的Python脚本,能够帮助我们检测本地麦克风的功能,需要的... 目录轻松检测麦克风功能脚本介绍一、python环境准备二、代码解析三、使用方法四、知识扩展轻松检测麦

Go语言使用net/http构建一个RESTful API的示例代码

《Go语言使用net/http构建一个RESTfulAPI的示例代码》Go的标准库net/http提供了构建Web服务所需的强大功能,虽然众多第三方框架(如Gin、Echo)已经封装了很多功能,但... 目录引言一、什么是 RESTful API?二、实战目标:用户信息管理 API三、代码实现1. 用户数据

在ASP.NET项目中如何使用C#生成二维码

《在ASP.NET项目中如何使用C#生成二维码》二维码(QRCode)已广泛应用于网址分享,支付链接等场景,本文将以ASP.NET为示例,演示如何实现输入文本/URL,生成二维码,在线显示与下载的完整... 目录创建前端页面(Index.cshtml)后端二维码生成逻辑(Index.cshtml.cs)总结