R-C3D论文详解

2024-02-10 01:59
文章标签 详解 论文 c3d

本文主要是介绍R-C3D论文详解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文链接:R-C3D: Region Convolutional 3D Network for Temporal Activity Detection
代码地址(论文提供地址):http://ai.bu.edu/r-c3d/

该论文借鉴图像物体检测中的Faster-RCNN的思想,文章采用3D卷积来获取视频的时序信息,然后通过类似Faster-RCNN的rpn层和roi层输出时间维度的boundingbox,也就是视频中待检测动作的时间段。

一、网络结构

R-C3D的网络结构如下图所示:
在这里插入图片描述

从上图可以看出,网络由三个部分组成,一个是共享的卷积层(3D ConvNet),一个是类似于Faster-RCNN的rpn层(Proposal Subnet),一个是Faster-RCNN的roi层(Classification Subnet)。下面来详解介绍一下三个结构。

1.1 3D卷积特征提取网络

这个共享的卷积层主要是用来获取时序和空间上的特征信息,网络的结构采用的是C3D的网络(用于视频分类的一个网络)。

网络的输入为RGB三通道的图像帧,输入维度为 3 × L × H × W 3\times L \times H \times W 3×L×H×W( C × T × H × W C \times T\times H \times W C×T×H×W),经过C3D网络的conv1a到conv5b后,网络输出维度变为 512 × L 8 × H 16 × W 16 512\times \frac{L}{8} \times \frac{H}{16} \times \frac{W}{16} 512×8L×16H×16W(512为网络的输出维度)。文章中输入的H、W为112,L是边长的只受限于内存或者显存大小。

1.2 Temporal Proposal Subnet

经过C3D网络可以得到维度为 512 × L 8 × H 16 × W 16 512\times \frac{L}{8} \times \frac{H}{16} \times \frac{W}{16} 512×8L×16H×16W的输出,在Proposal Subnet里面经过一个kernel size为 3 × 3 × 3 3\times 3\times 3 3×3×3的3D卷积核来增加时序维度的感受野,之后再经过一个大小为 1 × H 16 × W 16 1\times \frac{H}{16}\times\frac{W}{16} 1×16H×16W的max pooling得到维度为 512 × L 8 × 1 × 1 512\times \frac{L}{8}\times 1\times 1 512×8L×1×1的特征。

512 × L 8 × 1 × 1 512\times \frac{L}{8}\times 1\times 1 512×8L×1×1的输出特征在时序维度上,每一个时间点上都可以认为是一个anchor点,如果每个anchor点上预定义K个anchor框,那么该特征就可以获得 L 8 × K \frac{L}{8}\times K 8L×K个anchor框。将这些anchor框截取的特征输入给两个 1 × 1 × 1 1\times 1\times 1 1×1×1的卷积,可以获得两个结果,一个是对框的回归,一个是框是否为正样本的分类结果。

1.3 Activity Classification Subnet

activity classification stage包含三个主要功能:

  1. 从1.2中得到的Proposal中选取合适的Proposal
  2. 根据选择好的Proposal,利用3维的RoI pooling提取出对应的固定大小的特征
  3. 基于提取出的固定大小的特征得到动作的类别和回归出更精确的动作边界

1.3.1 Proposal的选择

经过Temporal Proposal Subnet阶段后,可以得到大量的Proposal,类似于faster rcnn,利用nms筛选出高质量的Proposal,nms的阈值定位0.7。

1.3.2 3D RoI Pooling

经过nms筛选出的Proposal,可以在3D卷积得到的特征(特征维度为 512 × L 8 × H 16 × W 16 512\times \frac{L}{8} \times \frac{H}{16} \times \frac{W}{16} 512×8L×16H×16W)中截取对应的特征区域,类似于faster rcnn的RoI pooling,文章使用3D RoI pooling,文章pooling将时序维度、H维度、W维度分别划分为1、4、4,所以经过Proposal的截取得到维度为 512 × l p × 7 × 7 512\times l_p \times 7 \times 7 512×lp×7×7的特征,再经过3D RoI pooling后输出维度为 512 × 1 × 4 × 4 512\times 1\times 4\times 4 512×1×4×4的特征。

1.3.3 输出动作类别与边界

在经过3D RoI pooling后输出维度为 512 × 1 × 4 × 4 512\times 1\times 4\times 4 512×1×4×4的特征,输入两个全连接层,然后分别送入两个全连接,一个用于分类一个用于回归。

二、训练阶段的设置

对于Temporal Proposal Subnet中正负样本的定义如下

  1. 与gt的IoU大于0.7的anchor segment定义为正样本
  2. 与某个gt的IoU是最大的,该anchor segment为正样本
  3. anchor与所有gt的IoU都小于0.3那么该anchor为负样本
  4. 其它anchor不参与训练
    该阶段正负样本控制在1:1进行网络的训练。

对于 Activity Classification Subnet中正负样本定义如下

  1. 某个Proposal与某个gt的IoU最大,且IoU大于0.5则该Proposal为正样本
  2. 某个Proposal与所有的gt的IoU都小于0.5,则该Proposal为负样本
    该阶段正负样本控制在1:3进行网络训练。
三、推断阶段的设置
  1. 首先经过Temporal Proposal Subnet,对anchor进行边界回归和正负样本的判断,这样就得到了大量的Proposal
  2. 得到的Proposal经过阈值为0.7的nms得到质量好的Proposal
  3. 根据高质量的Proposal截取对应范围的特征,送入Activity Classification Subnet,得到时序检测框和对应的类别
  4. 将得到的检测框经过阈值为0.1的nms得到最终的结果
四、loss计算

loss的计算和fasterrcnn也是很类似的,无论是emporal Proposal Subnet还是Activity Classification Subnet,分类采用softmax loss, 回归采用smooth l1 loss。同fasterrcnn回归loss根据训练的数量加入了一下权重的操作,用公式表示如下:
L o s s = 1 N c l s ∑ i L c l s ( a i , a i ∗ ) + λ 1 N r e g ∑ i a i ∗ L r e g ( t i , t i ∗ ) Loss = \frac{1}{N_{cls}}\sum_{i}L_{cls}(a_i, a^{*}_i)+\lambda\frac{1}{N_{reg}}\sum_{i}a^{*}_i L_{reg}(t_i, t^{*}_i) Loss=Ncls1iLcls(ai,ai)+λNreg1iaiLreg(ti,ti)
其中 N c l s N_{cls} Ncls表示训练的batchsize, N r e g N_{reg} Nreg表示anchor或者Proposal的数量,且只有anchor或者Proposal为正样本时才计算回归的loss值。回归也是回归一个片段的中心点位置的 δ \delta δ和片段长度的 δ \delta δ值,如下式表示
δ c i = ( c i ∗ − c i ) / l i ) \delta c_i = (c^{*}_i - c_i)/l_i) δci=(cici)/li)
δ l i = l o g ( l i ∗ ) / l i ) \delta l_i = log(l^{*}_i)/l_i) δli=log(li)/li)
上式中, c i c_i ci l i l_i li分别代表anchor或Proposal的中心和时长, c i ∗ c^{*}_i ci l i ∗ l^{*}_i li代表gt的中心和时长

视频算法交流qq群:657626967

这篇关于R-C3D论文详解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:https://blog.csdn.net/liuxiaoheng1992/article/details/115218416
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/695855

相关文章

Linux之platform平台设备驱动详解

《Linux之platform平台设备驱动详解》Linux设备驱动模型中,Platform总线作为虚拟总线统一管理无物理总线依赖的嵌入式设备,通过platform_driver和platform_de... 目录platform驱动注册platform设备注册设备树Platform驱动和设备的关系总结在 l

Olingo分析和实践之EDM 辅助序列化器详解(最佳实践)

《Olingo分析和实践之EDM辅助序列化器详解(最佳实践)》EDM辅助序列化器是ApacheOlingoOData框架中无需完整EDM模型的智能序列化工具,通过运行时类型推断实现灵活数据转换,适用... 目录概念与定义什么是 EDM 辅助序列化器?核心概念设计目标核心特点1. EDM 信息可选2. 智能类

Olingo分析和实践之ODataImpl详细分析(重要方法详解)

《Olingo分析和实践之ODataImpl详细分析(重要方法详解)》ODataImpl.java是ApacheOlingoOData框架的核心工厂类,负责创建序列化器、反序列化器和处理器等组件,... 目录概述主要职责类结构与继承关系核心功能分析1. 序列化器管理2. 反序列化器管理3. 处理器管理重要方

从入门到精通详解LangChain加载HTML内容的全攻略

《从入门到精通详解LangChain加载HTML内容的全攻略》这篇文章主要为大家详细介绍了如何用LangChain优雅地处理HTML内容,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录引言:当大语言模型遇见html一、HTML加载器为什么需要专门的HTML加载器核心加载器对比表二

Python使用openpyxl读取Excel的操作详解

《Python使用openpyxl读取Excel的操作详解》本文介绍了使用Python的openpyxl库进行Excel文件的创建、读写、数据操作、工作簿与工作表管理,包括创建工作簿、加载工作簿、操作... 目录1 概述1.1 图示1.2 安装第三方库2 工作簿 workbook2.1 创建:Workboo

Python实现中文文本处理与分析程序的示例详解

《Python实现中文文本处理与分析程序的示例详解》在当今信息爆炸的时代,文本数据的处理与分析成为了数据科学领域的重要课题,本文将使用Python开发一款基于Python的中文文本处理与分析程序,希望... 目录一、程序概述二、主要功能解析2.1 文件操作2.2 基础分析2.3 高级分析2.4 可视化2.5

Java实现预览与打印功能详解

《Java实现预览与打印功能详解》在Java中,打印功能主要依赖java.awt.print包,该包提供了与打印相关的一些关键类,比如PrinterJob和PageFormat,它们构成... 目录Java 打印系统概述打印预览与设置使用 PageFormat 和 PrinterJob 类设置页面格式与纸张

MySQL 8 中的一个强大功能 JSON_TABLE示例详解

《MySQL8中的一个强大功能JSON_TABLE示例详解》JSON_TABLE是MySQL8中引入的一个强大功能,它允许用户将JSON数据转换为关系表格式,从而可以更方便地在SQL查询中处理J... 目录基本语法示例示例查询解释应用场景不适用场景1. ‌jsON 数据结构过于复杂或动态变化‌2. ‌性能要

Python实现终端清屏的几种方式详解

《Python实现终端清屏的几种方式详解》在使用Python进行终端交互式编程时,我们经常需要清空当前终端屏幕的内容,本文为大家整理了几种常见的实现方法,有需要的小伙伴可以参考下... 目录方法一:使用 `os` 模块调用系统命令方法二:使用 `subprocess` 模块执行命令方法三:打印多个换行符模拟

MySQL字符串常用函数详解

《MySQL字符串常用函数详解》本文给大家介绍MySQL字符串常用函数,本文结合实例代码给大家介绍的非常详细,对大家学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录mysql字符串常用函数一、获取二、大小写转换三、拼接四、截取五、比较、反转、替换六、去空白、填充MySQL字符串常用函数一、