【视频算法解析二】I3D

2024-01-08 12:38
文章标签 算法 视频 解析 i3d

本文主要是介绍【视频算法解析二】I3D,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

[视频算法解析一] C3D算法

[视频算法解析二] I3D算法

[视频算法解析三] ECO算法

paper原文是“Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset”,链接如:https://arxiv.org/abs/1705.07750。

Introduction

网络是在Kinetics数据集上提出得,Human Action Video dataset,里面有400个 action classes,平均每个有400clips。

本文提出了一个Two-Stream Inflated 3D ConvNet,由2D卷积得那些网络在ImageNet上进行分类预训练,用在其他不同的task上,想到能不能在video上也采用这种方案,于是作者在Kinetics数据集上进行预训练,之后在HMDB-51 and UCF-101上进行fine-tuning。这种方法对于实验效果有提升,但每个model效果不同。

Action Classification Architectures

本章节把提出的I3D和之前别人得四种方法(都预训练了,除了C3D)进行比较。由于之前得网络参数原因以及缺少数据,所以他们的网络都很浅。

ConvNet+LSTM
由于2D分类网络的效果好,想到把其用在video上,但是只用那些2D卷积网络不能捕捉时空方面的信息,例如门从开到关。这里采用Inception-V1+LSTM。downsample了视频帧,从25/s到5/s。

3D卷积

3D卷积保留了时空特征,但是参数量很大,难以训练。为了比较,作者将网络缩小了些,这样才能在k40上训练。
 

Two-Stream Networks
单帧图像没有捕捉到low-level motion,参考Simonyan and Zisserman的网络输入单个图像,以及这个图像的optical flow。测试的时候是输入很多个单张图,最后结果取平均,结果较好而且训练和测试方便。

3D-fused Two-stream

最后一层前,将特征送到3D卷积里去。输入网络的是相隔10帧采样的5个连续RGB帧。

Two-Stream Inflated 3D ConvNets
后面实验章节会显示optical-flow stream对于3D卷积在这上面的提升。这里用的3D卷积是简单的从2D卷积扩展来的,增加了一维时间维度,将N*N的卷积核变为N*N*N的。

从2D卷积的在Imagenet上预训练迁移到3D卷积中,首先把图片复制N次,这样一个图片就成为一个视频,就可以在其上面对3D卷积和pooling进行学习了。时间核上用几维的,就复制几次就好了。

使感受野在时间,空间,网络深度上增长   对于网络来说,pooling和conv的strdie参数设定很重要,影响了特征的感受野。对于水平和垂直方向的pooling kernels and strides应该一致,对于时间维度的来说,合并的过快会导致不同对象的边缘融合,合并的过慢就丢失了场景动态信息。对于视频每秒取25帧,网络结构如下图。

双流网络 另一边是输入optical flow,两个网络分开训练,最后inference的时候取平均结果。

 

这篇关于【视频算法解析二】I3D的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/583482

相关文章

python常见环境管理工具超全解析

《python常见环境管理工具超全解析》在Python开发中,管理多个项目及其依赖项通常是一个挑战,下面:本文主要介绍python常见环境管理工具的相关资料,文中通过代码介绍的非常详细,需要的朋友... 目录1. conda2. pip3. uvuv 工具自动创建和管理环境的特点4. setup.py5.

全面解析HTML5中Checkbox标签

《全面解析HTML5中Checkbox标签》Checkbox是HTML5中非常重要的表单元素之一,通过合理使用其属性和样式自定义方法,可以为用户提供丰富多样的交互体验,这篇文章给大家介绍HTML5中C... 在html5中,Checkbox(复选框)是一种常用的表单元素,允许用户在一组选项中选择多个项目。本

Python包管理工具核心指令uvx举例详细解析

《Python包管理工具核心指令uvx举例详细解析》:本文主要介绍Python包管理工具核心指令uvx的相关资料,uvx是uv工具链中用于临时运行Python命令行工具的高效执行器,依托Rust实... 目录一、uvx 的定位与核心功能二、uvx 的典型应用场景三、uvx 与传统工具对比四、uvx 的技术实

SpringBoot排查和解决JSON解析错误(400 Bad Request)的方法

《SpringBoot排查和解决JSON解析错误(400BadRequest)的方法》在开发SpringBootRESTfulAPI时,客户端与服务端的数据交互通常使用JSON格式,然而,JSON... 目录问题背景1. 问题描述2. 错误分析解决方案1. 手动重新输入jsON2. 使用工具清理JSON3.

Redis过期删除机制与内存淘汰策略的解析指南

《Redis过期删除机制与内存淘汰策略的解析指南》在使用Redis构建缓存系统时,很多开发者只设置了EXPIRE但却忽略了背后Redis的过期删除机制与内存淘汰策略,下面小编就来和大家详细介绍一下... 目录1、简述2、Redis http://www.chinasem.cn的过期删除策略(Key Expir

Go学习记录之runtime包深入解析

《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,:本文主要介绍Go学习记录之runtime包的... 目录前言:一、runtime包内容学习1、作用:① Goroutine和并发控制:② 垃圾回收:③ 栈和

Spring组件实例化扩展点之InstantiationAwareBeanPostProcessor使用场景解析

《Spring组件实例化扩展点之InstantiationAwareBeanPostProcessor使用场景解析》InstantiationAwareBeanPostProcessor是Spring... 目录一、什么是InstantiationAwareBeanPostProcessor?二、核心方法解

深入解析 Java Future 类及代码示例

《深入解析JavaFuture类及代码示例》JavaFuture是java.util.concurrent包中用于表示异步计算结果的核心接口,下面给大家介绍JavaFuture类及实例代码,感兴... 目录一、Future 类概述二、核心工作机制代码示例执行流程2. 状态机模型3. 核心方法解析行为总结:三

springboot项目中使用JOSN解析库的方法

《springboot项目中使用JOSN解析库的方法》JSON,全程是JavaScriptObjectNotation,是一种轻量级的数据交换格式,本文给大家介绍springboot项目中使用JOSN... 目录一、jsON解析简介二、Spring Boot项目中使用JSON解析1、pom.XML文件引入依

Python中文件读取操作漏洞深度解析与防护指南

《Python中文件读取操作漏洞深度解析与防护指南》在Web应用开发中,文件操作是最基础也最危险的功能之一,这篇文章将全面剖析Python环境中常见的文件读取漏洞类型,成因及防护方案,感兴趣的小伙伴可... 目录引言一、静态资源处理中的路径穿越漏洞1.1 典型漏洞场景1.2 os.path.join()的陷