[深度学习论文笔记]Temporal Localization of Fine-Grained Actions in Videos by Domain Transfer from Web Images

本文主要是介绍[深度学习论文笔记]Temporal Localization of Fine-Grained Actions in Videos by Domain Transfer from Web Images,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

[ACM MM 15] Temporal Localization of Fine-Grained Actions in Videos by Domain Transfer from Web Images

Chen Sun, Sanketh Shettyy, Rahul Sukthankary and Ram Nevatia
from USC & Google

paper link

Motivation

这篇文章的主要目标是研究如何使用大量从搜索引擎得到的图片,定位视频中细粒度的动作在时间轴上的位置。

网络图片是通过在搜索引擎中搜索某些特定动作的名字得到的(如篮球比赛中的扣篮等)。作者将视频和搜索得到的图片视为两个不同的域。其中视频可以视作一些列的帧,这些帧包括了设计动作的部分,也包括了不涉及动作的无关帧。找出包含动作的帧就是实现了动作定位任务。网络图片可以认为他们的内容包含的搜索的动作,但是很多图片和视频帧的类型差别过大。如有些图片的拍摄视角和视频差别很大,有些图片是漫画而不是现实拍摄的素材。如图1所示。因此如何有效利用这些网络图片是关键。

图1

Method

作者主要使用不同域之间的迁移来不断过滤两个域中无用的数据。具体方法流程如下:

  1. 首先在每一个域(视频帧和网络图片)上训练单独的动作分类器,之后在另一个域上做分类预测;
  2. 过滤正确类别的分类概率较低的图片。这样可以净化两个域里面的图片:视频域里和动作无关的图片被过滤,网络图片中和视频差别很大的图片被过滤;
  3. 重复1,2中的步骤,直至稳定。

此时,视频中的每一帧都可以得到一个被过滤掉的置信度。基本上没有被过滤掉的帧被称为动作定位帧(localized action frames, LAF)。在此之后,作者进一步利用了LAF,即在原视频上训练CNN-LSTM进行视频分类。监督信息是整个视频的动作类别标注。步骤2中产生的概率作为每一帧损失函数的权重。被认定为是非动作的帧一定程度上被排除到训练样本之外。训练完成后,CNN-LSTM模型可以对视频进行动作分类。

最后为了定位动作,作者使用CNN-LSTM模型输出每一帧的分类概率,然后用时域上的滑动窗口扫,窗口内概率超过阈值的框即视作包含了一个动作。重叠在一起的滑动窗口使用非极大值抑制(NMS)过滤。

Experiment

在CNN-LSTM模型中,作者使用AlexNet作为CNN主干。在THUMOS2014数据集上,该模型的动作定位性能为:
在这里插入图片描述

这篇关于[深度学习论文笔记]Temporal Localization of Fine-Grained Actions in Videos by Domain Transfer from Web Images的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/967416

相关文章

深度解析Java DTO(最新推荐)

《深度解析JavaDTO(最新推荐)》DTO(DataTransferObject)是一种用于在不同层(如Controller层、Service层)之间传输数据的对象设计模式,其核心目的是封装数据,... 目录一、什么是DTO?DTO的核心特点:二、为什么需要DTO?(对比Entity)三、实际应用场景解析

深度解析Java项目中包和包之间的联系

《深度解析Java项目中包和包之间的联系》文章浏览阅读850次,点赞13次,收藏8次。本文详细介绍了Java分层架构中的几个关键包:DTO、Controller、Service和Mapper。_jav... 目录前言一、各大包1.DTO1.1、DTO的核心用途1.2. DTO与实体类(Entity)的区别1

深度解析Python装饰器常见用法与进阶技巧

《深度解析Python装饰器常见用法与进阶技巧》Python装饰器(Decorator)是提升代码可读性与复用性的强大工具,本文将深入解析Python装饰器的原理,常见用法,进阶技巧与最佳实践,希望可... 目录装饰器的基本原理函数装饰器的常见用法带参数的装饰器类装饰器与方法装饰器装饰器的嵌套与组合进阶技巧

深度解析Spring Boot拦截器Interceptor与过滤器Filter的区别与实战指南

《深度解析SpringBoot拦截器Interceptor与过滤器Filter的区别与实战指南》本文深度解析SpringBoot中拦截器与过滤器的区别,涵盖执行顺序、依赖关系、异常处理等核心差异,并... 目录Spring Boot拦截器(Interceptor)与过滤器(Filter)深度解析:区别、实现

深度解析Spring AOP @Aspect 原理、实战与最佳实践教程

《深度解析SpringAOP@Aspect原理、实战与最佳实践教程》文章系统讲解了SpringAOP核心概念、实现方式及原理,涵盖横切关注点分离、代理机制(JDK/CGLIB)、切入点类型、性能... 目录1. @ASPect 核心概念1.1 AOP 编程范式1.2 @Aspect 关键特性2. 完整代码实

SpringBoot开发中十大常见陷阱深度解析与避坑指南

《SpringBoot开发中十大常见陷阱深度解析与避坑指南》在SpringBoot的开发过程中,即使是经验丰富的开发者也难免会遇到各种棘手的问题,本文将针对SpringBoot开发中十大常见的“坑... 目录引言一、配置总出错?是不是同时用了.properties和.yml?二、换个位置配置就失效?搞清楚加

如何使用Maven创建web目录结构

《如何使用Maven创建web目录结构》:本文主要介绍如何使用Maven创建web目录结构的问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录创建web工程第一步第二步第三步第四步第五步第六步第七步总结创建web工程第一步js通过Maven骨架创pytho

Java Web实现类似Excel表格锁定功能实战教程

《JavaWeb实现类似Excel表格锁定功能实战教程》本文将详细介绍通过创建特定div元素并利用CSS布局和JavaScript事件监听来实现类似Excel的锁定行和列效果的方法,感兴趣的朋友跟随... 目录1. 模拟Excel表格锁定功能2. 创建3个div元素实现表格锁定2.1 div元素布局设计2.

如何使用Haporxy搭建Web群集

《如何使用Haporxy搭建Web群集》Haproxy是目前比较流行的一种群集调度工具,同类群集调度工具有很多如LVS和Nginx,本案例介绍使用Haproxy及Nginx搭建一套Web群集,感兴趣的... 目录一、案例分析1.案例概述2.案例前置知识点2.1 HTTP请求2.2 负载均衡常用调度算法 2.

Go学习记录之runtime包深入解析

《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,:本文主要介绍Go学习记录之runtime包的... 目录前言:一、runtime包内容学习1、作用:① Goroutine和并发控制:② 垃圾回收:③ 栈和