Multi-modal Circulant Fusion for Video-to-Language and Backward(MCF)同时使用vector和matrix

本文主要是介绍Multi-modal Circulant Fusion for Video-to-Language and Backward(MCF)同时使用vector和matrix,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1.多模态循环融合(MCF)

MCF的详细过程如图,x,y为不同模态特征向量,首先利用两个投影矩阵W1,W2将将特征投影到VC两个低维空间。

然后利用V、C构造循环矩阵A和B

为了使投影向量和循环矩阵中的元素充分作用,我们探索了两种不同的乘法运算

1)在循环矩阵和投影向量之间使用矩阵乘法

2)是让循环矩阵的投影向量和每行进行元素积

最后通过一个投影矩阵W3,将F和G的利用element-wise sum转换为M

2.MCF for Video Captioning

开发了一个视频->字幕框架:卷积编码器和解码器

在解码器中,将MCF作为粗略解码的基础层,在基础层上堆叠分层扩展以进行精细和最终解码。

因此用MCF构建了一个多级解码器

2.1卷积编码网络

1)特征提取:

使用预先训练的卷积网络对每m帧提取特征,产生向量Xi对第i帧

2)区别性提升:

对两个连续的帧Xi和Xi+1,计算帧间差别diff,然后通过relu运算,添加积极的diff到Xi+1,将消极的diff添加到Xi。

因而扩大区别性差异在Xi与Xi+1之间

Vi是提升结果

3)重构网络

我们构建了一个重构网络来学习每个视频帧的紧凑表示

We是卷积权重,Zi是学习的紧致表示,Wd是重构权重,Ri是重构结果

L是损失函数

2.2Multi-stage Convolutional Decoder with MCF

多级顺序解码器示意图。对于这个解码器,我们首先使用MCF来获得视觉特征和单词嵌入特征的联合表示。然后我们把联合表示作为这个解码器的输入。“粗略”、“精细”和“最终”表示解码器的三个阶段。相应的不断改进的视频描述以绿色、黄色和橙色显示

预测单词序列用第j个解码器:

目标单词序列:

1)MCF作为粗解码器

在底部阶段,用一个扩展卷积层来学习一个粗解码器,在每一个时间t,粗解码器的输入包括先前的目标单词Yt-1和mean向量Zmean(编码器的输出)

一开始用MCF去获得联合表示

MCF(a,b)表示使用MCF去融合a和b

wfwg表示第0层的卷积权重

2)改进解码器

由两个阶段组成,第一个阶段包含三个扩张的卷积层,第二阶段仅包括一个堆叠在第一级之上的扩展卷积层。第二阶段的预测作为最终描述。

改进解码器:

对于第一个改进解码器,使用粗解码器的输出h0来计算视觉注意力

该改进解码器中第一层的操作:

w1是可学习的权重,用于转换级联表示的通道

然后第一改进解码器的下两层操作

第二个改进的解码器:

 

 

这篇关于Multi-modal Circulant Fusion for Video-to-Language and Backward(MCF)同时使用vector和matrix的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/468006

相关文章

使用Python开发一个Ditto剪贴板数据导出工具

《使用Python开发一个Ditto剪贴板数据导出工具》在日常工作中,我们经常需要处理大量的剪贴板数据,下面将介绍如何使用Python的wxPython库开发一个图形化工具,实现从Ditto数据库中读... 目录前言运行结果项目需求分析技术选型核心功能实现1. Ditto数据库结构分析2. 数据库自动定位3

Python yield与yield from的简单使用方式

《Pythonyield与yieldfrom的简单使用方式》生成器通过yield定义,可在处理I/O时暂停执行并返回部分结果,待其他任务完成后继续,yieldfrom用于将一个生成器的值传递给另一... 目录python yield与yield from的使用代码结构总结Python yield与yield

Go语言使用select监听多个channel的示例详解

《Go语言使用select监听多个channel的示例详解》本文将聚焦Go并发中的一个强力工具,select,这篇文章将通过实际案例学习如何优雅地监听多个Channel,实现多任务处理、超时控制和非阻... 目录一、前言:为什么要使用select二、实战目标三、案例代码:监听两个任务结果和超时四、运行示例五

python使用Akshare与Streamlit实现股票估值分析教程(图文代码)

《python使用Akshare与Streamlit实现股票估值分析教程(图文代码)》入职测试中的一道题,要求:从Akshare下载某一个股票近十年的财务报表包括,资产负债表,利润表,现金流量表,保存... 目录一、前言二、核心知识点梳理1、Akshare数据获取2、Pandas数据处理3、Matplotl

Java使用Thumbnailator库实现图片处理与压缩功能

《Java使用Thumbnailator库实现图片处理与压缩功能》Thumbnailator是高性能Java图像处理库,支持缩放、旋转、水印添加、裁剪及格式转换,提供易用API和性能优化,适合Web应... 目录1. 图片处理库Thumbnailator介绍2. 基本和指定大小图片缩放功能2.1 图片缩放的

Python使用Tenacity一行代码实现自动重试详解

《Python使用Tenacity一行代码实现自动重试详解》tenacity是一个专为Python设计的通用重试库,它的核心理念就是用简单、清晰的方式,为任何可能失败的操作添加重试能力,下面我们就来看... 目录一切始于一个简单的 API 调用Tenacity 入门:一行代码实现优雅重试精细控制:让重试按我

MySQL中EXISTS与IN用法使用与对比分析

《MySQL中EXISTS与IN用法使用与对比分析》在MySQL中,EXISTS和IN都用于子查询中根据另一个查询的结果来过滤主查询的记录,本文将基于工作原理、效率和应用场景进行全面对比... 目录一、基本用法详解1. IN 运算符2. EXISTS 运算符二、EXISTS 与 IN 的选择策略三、性能对比

使用Python构建智能BAT文件生成器的完美解决方案

《使用Python构建智能BAT文件生成器的完美解决方案》这篇文章主要为大家详细介绍了如何使用wxPython构建一个智能的BAT文件生成器,它不仅能够为Python脚本生成启动脚本,还提供了完整的文... 目录引言运行效果图项目背景与需求分析核心需求技术选型核心功能实现1. 数据库设计2. 界面布局设计3

使用IDEA部署Docker应用指南分享

《使用IDEA部署Docker应用指南分享》本文介绍了使用IDEA部署Docker应用的四步流程:创建Dockerfile、配置IDEADocker连接、设置运行调试环境、构建运行镜像,并强调需准备本... 目录一、创建 dockerfile 配置文件二、配置 IDEA 的 Docker 连接三、配置 Do

Android Paging 分页加载库使用实践

《AndroidPaging分页加载库使用实践》AndroidPaging库是Jetpack组件的一部分,它提供了一套完整的解决方案来处理大型数据集的分页加载,本文将深入探讨Paging库... 目录前言一、Paging 库概述二、Paging 3 核心组件1. PagingSource2. Pager3.