阿里巴巴优酷视频增强和超分辨率挑战的冠军方案:VESR-Net

本文主要是介绍阿里巴巴优酷视频增强和超分辨率挑战的冠军方案:VESR-Net,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述
作者单位:中国科学技术大学、微软亚洲研究院
挑战赛链接:https://tianchi.aliyun.com/competition/entrance/231711/rankingList/1
论文链接:https://arxiv.org/pdf/2003.02115.pdf
译者:Wangsy

看点

视频增强与超分辨率(VESR)旨在从噪声和低分辨率视频帧中恢复高分辨率的细节。为了推动研究从受现实世界退化影响的低质量视频中恢复高质量视频,优酷举办了视频增强和超分辨率挑战赛,以探索在线视频应用程序中真实退化的数据集的VESR解决方案。
本文介绍了VESR-Net,它在优酷VESR挑战赛中获得第一名。具体的说:

  1. 设计了一个独立的非局部(Separate NL)模块来有效地探索视频帧之间的关系并对视频帧进行融合;
  2. 设计了一个通道注意残差块(CARB),用于在VESR网络中捕获视频帧重构的特征映射之间的关系。
    在这里插入图片描述

Youku-VESR挑战

挑战赛了收集1000个1080p视频片段,包括高分辨率和低分辨率视频对。该数据集包含了多种类型的内容,在在线视频观看应用中,低分辨率视频会受到不同噪声的影响。
挑战阶段:第一阶段,所有参与者得到200对LR和HR视频用于训练,50对LR视频用于评估。第二阶段,Youku发布650对LR和HR视频用于培训,100对LR视频用于验证。第二阶段的LR视频比第一阶段的视频退化更严重。在本文所提及的方法中,对于一共1000个视频片段,分割了50个视频用于评估,剩下的视频用于训练。
评估阶段:评估阶段定量指标是峰值信噪比(PSNR)和视频多方法评估融合(VMAF)。测试为前5个视频中的所有帧和剩下视频中的每隔5帧的下一帧。

方法

overview

VESR-Net由两部分组成:帧间融合的融合模块和帧内融合的重构模块。融合模块的目标是通过从相邻帧中提取有用信息,同时忽略时间冗余信息来融合相邻帧进行中间帧重建。因此,本文提出了一个独立的非局部模块来模拟视频特征之间的关系。在帧重建模块中,我们在残差块中引入了通道注意机制,以实现高效重建。
在这里插入图片描述
每个模块的具体网络架构如下表:
在这里插入图片描述

独立的非局部模块

在计算机视觉中的自注意机制称为非局部神经网络。然而,由于非局部神经网络中关系矩阵的高维性,非局部运算消耗了大量的参数,尤其是对于视频特征。因此,本文设计了一种新的称为独立非本地的模块,在较浅的网络中可以达到更好的性能。本文设计了三种类型的注意模块,以探索不同维度的全局上下文信息。首先,在三个分支中分别生成两个新的特征映射A1、A2、A3和B1、B2、B3。然后将它们reshape到C×T×(N×W)、T×H×W×C、C×H×W×T,通过矩阵乘法得到三个关系矩阵 M 1 ∈ R H W × H W 、 M 2 ∈ R C × C 、 M 3 ∈ R T × T M1∈\mathbb R^{HW×HW}、M2∈\mathbb R^{C×C}、M3∈\mathbb R^{T×T} M1RHW×HWM2RC×CM3RT×T。M1、M2和M3分别表示不同空间上下文、不同通道和不同时间步长之间的相似性。同时,我们将视频特征F输入到三个卷积层中,生成新的与B在同一空间中的特征映射D1、D2、D3。接下来,对D1,D2,D3的转置与M1,M2,M3进行矩阵乘法,得到结果E1,E2,E3。最后,我们在E1,E2,E3和F之间进行元素和运算,得到融合特征。
在这里插入图片描述

通道注意残差块

重建模块中残差块中的通道注意机制是VESR高效重构和良好性能的基础。在CARB中,首先执行全局平均池化获取通道描述W。然后通过两个线性层得到通道权值Z,并将通道权值Z与视频特征X相乘,最后将相乘的结果与视频特征进行concat,输入进1×1卷积层得到最终输出。
在这里插入图片描述

实验

消融实验

对提出的独立非局部模块和通道注意残差块进行消融实验,并与EDVR s m a l l _{small} small进行对比。(此处没有给两个模块都没有的实验数据,如果两个模块都没有就比EDVR性能好,该论文就没有很大的意义了,不如去讲讲没有这两个模块为什么还会比EDVR性能好)
在这里插入图片描述

量化评估

为了公平比较,EDVR s m a l l _{small} small作为baseline采用了20个残差块,其参数数量与VESR-Net s m a l l _{small} small相当。在设计的独立非局部模块和通道注意残差块的帮助下,VESR-Net比EDVR网提高了0.22dB,并且计算复杂度较低。
在这里插入图片描述

这篇关于阿里巴巴优酷视频增强和超分辨率挑战的冠军方案:VESR-Net的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/654117

相关文章

SpringBoot服务获取Pod当前IP的两种方案

《SpringBoot服务获取Pod当前IP的两种方案》在Kubernetes集群中,SpringBoot服务获取Pod当前IP的方案主要有两种,通过环境变量注入或通过Java代码动态获取网络接口IP... 目录方案一:通过 Kubernetes Downward API 注入环境变量原理步骤方案二:通过

Springboot3+将ID转为JSON字符串的详细配置方案

《Springboot3+将ID转为JSON字符串的详细配置方案》:本文主要介绍纯后端实现Long/BigIntegerID转为JSON字符串的详细配置方案,s基于SpringBoot3+和Spr... 目录1. 添加依赖2. 全局 Jackson 配置3. 精准控制(可选)4. OpenAPI (Spri

关于跨域无效的问题及解决(java后端方案)

《关于跨域无效的问题及解决(java后端方案)》:本文主要介绍关于跨域无效的问题及解决(java后端方案),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录通用后端跨域方法1、@CrossOrigin 注解2、springboot2.0 实现WebMvcConfig

在Java中将XLS转换为XLSX的实现方案

《在Java中将XLS转换为XLSX的实现方案》在本文中,我们将探讨传统ExcelXLS格式与现代XLSX格式的结构差异,并为Java开发者提供转换方案,通过了解底层原理、性能优势及实用工具,您将掌握... 目录为什么升级XLS到XLSX值得投入?实际转换过程解析推荐技术方案对比Apache POI实现编程

Java实现本地缓存的常用方案介绍

《Java实现本地缓存的常用方案介绍》本地缓存的代表技术主要有HashMap,GuavaCache,Caffeine和Encahche,这篇文章主要来和大家聊聊java利用这些技术分别实现本地缓存的方... 目录本地缓存实现方式HashMapConcurrentHashMapGuava CacheCaffe

无法启动此程序因为计算机丢失api-ms-win-core-path-l1-1-0.dll修复方案

《无法启动此程序因为计算机丢失api-ms-win-core-path-l1-1-0.dll修复方案》:本文主要介绍了无法启动此程序,详细内容请阅读本文,希望能对你有所帮助... 在计算机使用过程中,我们经常会遇到一些错误提示,其中之一就是"api-ms-win-core-path-l1-1-0.dll丢失

利用Python实现可回滚方案的示例代码

《利用Python实现可回滚方案的示例代码》很多项目翻车不是因为不会做,而是走错了方向却没法回头,技术选型失败的风险我们都清楚,但真正能提前规划“回滚方案”的人不多,本文从实际项目出发,教你如何用Py... 目录描述题解答案(核心思路)题解代码分析第一步:抽象缓存接口第二步:实现两个版本第三步:根据 Fea

SpringBoot实现接口数据加解密的三种实战方案

《SpringBoot实现接口数据加解密的三种实战方案》在金融支付、用户隐私信息传输等场景中,接口数据若以明文传输,极易被中间人攻击窃取,SpringBoot提供了多种优雅的加解密实现方案,本文将从原... 目录一、为什么需要接口数据加解密?二、核心加解密算法选择1. 对称加密(AES)2. 非对称加密(R

MySQL精准控制Binlog日志数量的三种方案

《MySQL精准控制Binlog日志数量的三种方案》作为数据库管理员,你是否经常为服务器磁盘爆满而抓狂?Binlog就像数据库的“黑匣子”,默默记录着每一次数据变动,但若放任不管,几天内这些日志文件就... 目录 一招修改配置文件:永久生效的控制术1.定位my.cnf文件2.添加核心参数不重启热更新:高手应

MySQL中like模糊查询的优化方案

《MySQL中like模糊查询的优化方案》在MySQL中,like模糊查询是一种常用的查询方式,但在某些情况下可能会导致性能问题,本文将介绍八种优化MySQL中like模糊查询的方法,需要的朋友可以参... 目录1. 避免以通配符开头的查询2. 使用全文索引(Full-text Index)3. 使用前缀索