R-C3D论文详解

2024-02-10 01:59
文章标签 详解 论文 c3d

本文主要是介绍R-C3D论文详解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文链接:R-C3D: Region Convolutional 3D Network for Temporal Activity Detection
代码地址(论文提供地址):http://ai.bu.edu/r-c3d/

该论文借鉴图像物体检测中的Faster-RCNN的思想,文章采用3D卷积来获取视频的时序信息,然后通过类似Faster-RCNN的rpn层和roi层输出时间维度的boundingbox,也就是视频中待检测动作的时间段。

一、网络结构

R-C3D的网络结构如下图所示:
在这里插入图片描述

从上图可以看出,网络由三个部分组成,一个是共享的卷积层(3D ConvNet),一个是类似于Faster-RCNN的rpn层(Proposal Subnet),一个是Faster-RCNN的roi层(Classification Subnet)。下面来详解介绍一下三个结构。

1.1 3D卷积特征提取网络

这个共享的卷积层主要是用来获取时序和空间上的特征信息,网络的结构采用的是C3D的网络(用于视频分类的一个网络)。

网络的输入为RGB三通道的图像帧,输入维度为 3 × L × H × W 3\times L \times H \times W 3×L×H×W( C × T × H × W C \times T\times H \times W C×T×H×W),经过C3D网络的conv1a到conv5b后,网络输出维度变为 512 × L 8 × H 16 × W 16 512\times \frac{L}{8} \times \frac{H}{16} \times \frac{W}{16} 512×8L×16H×16W(512为网络的输出维度)。文章中输入的H、W为112,L是边长的只受限于内存或者显存大小。

1.2 Temporal Proposal Subnet

经过C3D网络可以得到维度为 512 × L 8 × H 16 × W 16 512\times \frac{L}{8} \times \frac{H}{16} \times \frac{W}{16} 512×8L×16H×16W的输出,在Proposal Subnet里面经过一个kernel size为 3 × 3 × 3 3\times 3\times 3 3×3×3的3D卷积核来增加时序维度的感受野,之后再经过一个大小为 1 × H 16 × W 16 1\times \frac{H}{16}\times\frac{W}{16} 1×16H×16W的max pooling得到维度为 512 × L 8 × 1 × 1 512\times \frac{L}{8}\times 1\times 1 512×8L×1×1的特征。

512 × L 8 × 1 × 1 512\times \frac{L}{8}\times 1\times 1 512×8L×1×1的输出特征在时序维度上,每一个时间点上都可以认为是一个anchor点,如果每个anchor点上预定义K个anchor框,那么该特征就可以获得 L 8 × K \frac{L}{8}\times K 8L×K个anchor框。将这些anchor框截取的特征输入给两个 1 × 1 × 1 1\times 1\times 1 1×1×1的卷积,可以获得两个结果,一个是对框的回归,一个是框是否为正样本的分类结果。

1.3 Activity Classification Subnet

activity classification stage包含三个主要功能:

  1. 从1.2中得到的Proposal中选取合适的Proposal
  2. 根据选择好的Proposal,利用3维的RoI pooling提取出对应的固定大小的特征
  3. 基于提取出的固定大小的特征得到动作的类别和回归出更精确的动作边界

1.3.1 Proposal的选择

经过Temporal Proposal Subnet阶段后,可以得到大量的Proposal,类似于faster rcnn,利用nms筛选出高质量的Proposal,nms的阈值定位0.7。

1.3.2 3D RoI Pooling

经过nms筛选出的Proposal,可以在3D卷积得到的特征(特征维度为 512 × L 8 × H 16 × W 16 512\times \frac{L}{8} \times \frac{H}{16} \times \frac{W}{16} 512×8L×16H×16W)中截取对应的特征区域,类似于faster rcnn的RoI pooling,文章使用3D RoI pooling,文章pooling将时序维度、H维度、W维度分别划分为1、4、4,所以经过Proposal的截取得到维度为 512 × l p × 7 × 7 512\times l_p \times 7 \times 7 512×lp×7×7的特征,再经过3D RoI pooling后输出维度为 512 × 1 × 4 × 4 512\times 1\times 4\times 4 512×1×4×4的特征。

1.3.3 输出动作类别与边界

在经过3D RoI pooling后输出维度为 512 × 1 × 4 × 4 512\times 1\times 4\times 4 512×1×4×4的特征,输入两个全连接层,然后分别送入两个全连接,一个用于分类一个用于回归。

二、训练阶段的设置

对于Temporal Proposal Subnet中正负样本的定义如下

  1. 与gt的IoU大于0.7的anchor segment定义为正样本
  2. 与某个gt的IoU是最大的,该anchor segment为正样本
  3. anchor与所有gt的IoU都小于0.3那么该anchor为负样本
  4. 其它anchor不参与训练
    该阶段正负样本控制在1:1进行网络的训练。

对于 Activity Classification Subnet中正负样本定义如下

  1. 某个Proposal与某个gt的IoU最大,且IoU大于0.5则该Proposal为正样本
  2. 某个Proposal与所有的gt的IoU都小于0.5,则该Proposal为负样本
    该阶段正负样本控制在1:3进行网络训练。
三、推断阶段的设置
  1. 首先经过Temporal Proposal Subnet,对anchor进行边界回归和正负样本的判断,这样就得到了大量的Proposal
  2. 得到的Proposal经过阈值为0.7的nms得到质量好的Proposal
  3. 根据高质量的Proposal截取对应范围的特征,送入Activity Classification Subnet,得到时序检测框和对应的类别
  4. 将得到的检测框经过阈值为0.1的nms得到最终的结果
四、loss计算

loss的计算和fasterrcnn也是很类似的,无论是emporal Proposal Subnet还是Activity Classification Subnet,分类采用softmax loss, 回归采用smooth l1 loss。同fasterrcnn回归loss根据训练的数量加入了一下权重的操作,用公式表示如下:
L o s s = 1 N c l s ∑ i L c l s ( a i , a i ∗ ) + λ 1 N r e g ∑ i a i ∗ L r e g ( t i , t i ∗ ) Loss = \frac{1}{N_{cls}}\sum_{i}L_{cls}(a_i, a^{*}_i)+\lambda\frac{1}{N_{reg}}\sum_{i}a^{*}_i L_{reg}(t_i, t^{*}_i) Loss=Ncls1iLcls(ai,ai)+λNreg1iaiLreg(ti,ti)
其中 N c l s N_{cls} Ncls表示训练的batchsize, N r e g N_{reg} Nreg表示anchor或者Proposal的数量,且只有anchor或者Proposal为正样本时才计算回归的loss值。回归也是回归一个片段的中心点位置的 δ \delta δ和片段长度的 δ \delta δ值,如下式表示
δ c i = ( c i ∗ − c i ) / l i ) \delta c_i = (c^{*}_i - c_i)/l_i) δci=(cici)/li)
δ l i = l o g ( l i ∗ ) / l i ) \delta l_i = log(l^{*}_i)/l_i) δli=log(li)/li)
上式中, c i c_i ci l i l_i li分别代表anchor或Proposal的中心和时长, c i ∗ c^{*}_i ci l i ∗ l^{*}_i li代表gt的中心和时长

视频算法交流qq群:657626967

这篇关于R-C3D论文详解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:https://blog.csdn.net/liuxiaoheng1992/article/details/115218416
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/695855

相关文章

Java中的stream流分组示例详解

《Java中的stream流分组示例详解》Java8StreamAPI以函数式风格处理集合数据,支持分组、统计等操作,可按单/多字段分组,使用String、Map.Entry或Java16record... 目录什么是stream流1、根据某个字段分组2、按多个字段分组(组合分组)1、方法一:使用 Stri

Spring创建Bean的八种主要方式详解

《Spring创建Bean的八种主要方式详解》Spring(尤其是SpringBoot)提供了多种方式来让容器创建和管理Bean,@Component、@Configuration+@Bean、@En... 目录引言一、Spring 创建 Bean 的 8 种主要方式1. @Component 及其衍生注解

Python异步编程之await与asyncio基本用法详解

《Python异步编程之await与asyncio基本用法详解》在Python中,await和asyncio是异步编程的核心工具,用于高效处理I/O密集型任务(如网络请求、文件读写、数据库操作等),接... 目录一、核心概念二、使用场景三、基本用法1. 定义协程2. 运行协程3. 并发执行多个任务四、关键

从基础到进阶详解Python条件判断的实用指南

《从基础到进阶详解Python条件判断的实用指南》本文将通过15个实战案例,带你大家掌握条件判断的核心技巧,并从基础语法到高级应用一网打尽,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一... 目录​引言:条件判断为何如此重要一、基础语法:三行代码构建决策系统二、多条件分支:elif的魔法三、

Java利用@SneakyThrows注解提升异常处理效率详解

《Java利用@SneakyThrows注解提升异常处理效率详解》这篇文章将深度剖析@SneakyThrows的原理,用法,适用场景以及隐藏的陷阱,看看它如何让Java异常处理效率飙升50%,感兴趣的... 目录前言一、检查型异常的“诅咒”:为什么Java开发者讨厌它1.1 检查型异常的痛点1.2 为什么说

MySQL的配置文件详解及实例代码

《MySQL的配置文件详解及实例代码》MySQL的配置文件是服务器运行的重要组成部分,用于设置服务器操作的各种参数,下面:本文主要介绍MySQL配置文件的相关资料,文中通过代码介绍的非常详细,需要... 目录前言一、配置文件结构1.[mysqld]2.[client]3.[mysql]4.[mysqldum

springboot2.1.3 hystrix集成及hystrix-dashboard监控详解

《springboot2.1.3hystrix集成及hystrix-dashboard监控详解》Hystrix是Netflix开源的微服务容错工具,通过线程池隔离和熔断机制防止服务崩溃,支持降级、监... 目录Hystrix是Netflix开源技术www.chinasem.cn栈中的又一员猛将Hystrix熔

Java调用Python脚本实现HelloWorld的示例详解

《Java调用Python脚本实现HelloWorld的示例详解》作为程序员,我们经常会遇到需要在Java项目中调用Python脚本的场景,下面我们来看看如何从基础到进阶,一步步实现Java与Pyth... 目录一、环境准备二、基础调用:使用 Runtime.exec()2.1 实现步骤2.2 代码解析三、

python之uv使用详解

《python之uv使用详解》文章介绍uv在Ubuntu上用于Python项目管理,涵盖安装、初始化、依赖管理、运行调试及Docker应用,强调CI中使用--locked确保依赖一致性... 目录安装与更新standalonepip 安装创建php以及初始化项目依赖管理uv run直接在命令行运行pytho

Springboot项目构建时各种依赖详细介绍与依赖关系说明详解

《Springboot项目构建时各种依赖详细介绍与依赖关系说明详解》SpringBoot通过spring-boot-dependencies统一依赖版本管理,spring-boot-starter-w... 目录一、spring-boot-dependencies1.简介2. 内容概览3.核心内容结构4.