VALSE 2024 Workshop报告分享┆探索短视频生成与编辑的前沿技术

本文主要是介绍VALSE 2024 Workshop报告分享┆探索短视频生成与编辑的前沿技术,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2024年视觉与学习青年学者研讨会(VALSE 2024)于5月5日到7日在重庆悦来国际会议中心举行。本公众号将全方位地对会议的热点进行报道,方便广大读者跟踪和了解人工智能的前沿理论和技术。欢迎广大读者对文章进行关注、阅读和转发。文章是对报告人演讲内容的理解或转述,可能与报告人的原意有所不同,敬请读者理解;如报告人认为文章与自己报告的内容差别较大,可以联系公众号删除。

本文对微软亚洲研究院的罗翀博士所做的Workshop报告《探索短视频生成与编辑的前沿技术》进行总结和分享。

1.报告人简介

罗翀,上海交通大学信号与信息处理专业博士,现任微软亚洲研究院智能多媒体组高级研究员,中国科学技术大学兼职教授、博士生导师,研究领域包括计算机视觉、智能语音、跨模态视频分析、视频通信等。

2.报告概览

首先,罗博士在报告中首先对近年图像和视频生成做了简要回顾,包括过去几年中图像/视频生成领域的发展和技术进本。随后,他介绍了最近的创新应用,旨在通过讨论最新技术和展望未来发展,为相关研究人员提供图像和视频生成领域的全面了解。

3.内容整理

罗博士的报告主要分为三个部分,下面逐一加以详细介绍

(1)图像和视频生成的简要回顾

1)文本生成图像

报告中呈现了文本生成图像领域的发展历程,从2016年基于生成对抗网络的方法,到2024年3月Stability AI发布的最强图片生成模型Stable Diffusion3。从图像结果和技术视角两个方向,罗博士介绍了图像生成的发展趋势。从图像结果来看,视觉上更吸引人:从“基本上是我想要的”到 “看起来惊人”;图像的分辨率得到提升:从256x256 到 1024x1024 ,再到超过2k;模型能够更好的理解提示:包括对象关系、数量和属性等;模型能够更好的进行符号控制:能够正确地拼写复杂文本。从技术视角来看,模型的规模扩大:Stable Diffusion3最大可达到8B;此外,扩散模型成为该领域的主流技术;最新的技术已经可以实现矫正流、噪声调度等高级操作。

2)文本生成视频

罗博士总结了文本生成视频领域从2021年到2024年的关键技术,从微软亚洲研究院和北京大学于2021年11月联合提出的NUWA模型,到2024年3月OpenAI发布的震惊业界的Sora。随后讨论了Sora发布之前,视频生成技术的现状和挑战。例如,存在场景单一、动作简单或者细微、难以在大幅度运动时保持表现的一致性等问题。

(2)图像和视频生成的技术进展

1)MicroCinema

MicroCinema是一个用于文本生成视频的有效框架,引入了一种分而治之的策略,将文本到视频的过程分为两个阶段:文本生成图像和图像/文本生成视频。这种策略具有两个显著优势:一是充分利用了Stable Diffusion、Midjourney 和 DALLE 等文本生成图像模型的最新技术;二是利用生成的图使模型可以较少关注细粒度的外观细节,更优先考虑运动动力学的高效学习。图1展示了MicroCinema创建连贯且高质量视频的能力。

论文下载链接:https://arxiv.org/abs/2311.18829。

视频样本下载链接:https://wangyanhui666.github.io/MicroCinema.github.io/。

图 1 MicroCinema生成的样本视频

MicroCinema目前面临的关键挑战包含两个方面,一是如何将图像条件注入到视频生成网络中,以确保图像条件得到忠实保留、视频生成能力不受影响;二是如何确保稳定生成,避免外观损坏或动作不一致。

2)CCEdit

CCEdit是一种基于扩散模型的多功能生成性视频编辑框架,采用了一种三叉网络结构,包括文本到视频(T2V)主分支、外观分支和结构分支。模型区分了结构和外观控制,从而确保精确和创造性的编辑能力,通过ControlNet架构保持编辑过程中视频的结构完整性。增加的外观分支使用户能够对关键帧进行细粒度控制。模型的主分支基于现有的文本到图像(T2I)生成模型构建,然后将两个侧分支无缝地整合到主分支中,并通过可学习的时间层进行连接。CCEdit在多项评估指标上取得了目前最优表现,图2展示CCEdit强大而灵活的视频编辑额能力。

论文下载链接:https://arxiv.org/abs/2309.16496。

视频样本下载链接:https://ruoyufeng.github.io/CCEdit.github.io/。

图 2  CCEdit为用户提供了一套强大而灵活的视频编辑功能,包括风格迁移(第1 ~ 3行)、前景修改(第4行)和背景替换(第5行)。

(3)讨论与展望

1)讨论

尽管已解决了一些存在的问题,但关于自动编码器/分词器的重要性、高描述性文本标题, DiT相比于U-net在强度和扩展性方面的优势等仍需进一步研究。此外,视频生成模型在可控性、一致性以及多轮视频生成与编辑方面的问题依然存在,这些都是当前亟需克服的技术难题。

2)展望

视频生成技术正处于一个多元化创新和快速发展的阶段,正面临着多种技术挑战和行业变革的机遇。在资源有限的情况下,解耦外观与动作建模是一种有效的可行策略。当前,视频生成模型还需要解决可控性、场景与物体一致性及多轮编辑的可行性等问题。研究统一理解与生成、多模态融合的最佳模型是重点方向之一。此外,视频生成技术对人工通用智能的发展具有重要推动作用,但仍需评估Sora技术作为实现世界模拟器的潜在有效性。

这篇关于VALSE 2024 Workshop报告分享┆探索短视频生成与编辑的前沿技术的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/972095

相关文章

Python使用OpenCV实现获取视频时长的小工具

《Python使用OpenCV实现获取视频时长的小工具》在处理视频数据时,获取视频的时长是一项常见且基础的需求,本文将详细介绍如何使用Python和OpenCV获取视频时长,并对每一行代码进行深入解析... 目录一、代码实现二、代码解析1. 导入 OpenCV 库2. 定义获取视频时长的函数3. 打开视频文

Python中你不知道的gzip高级用法分享

《Python中你不知道的gzip高级用法分享》在当今大数据时代,数据存储和传输成本已成为每个开发者必须考虑的问题,Python内置的gzip模块提供了一种简单高效的解决方案,下面小编就来和大家详细讲... 目录前言:为什么数据压缩如此重要1. gzip 模块基础介绍2. 基本压缩与解压缩操作2.1 压缩文

Go语言代码格式化的技巧分享

《Go语言代码格式化的技巧分享》在Go语言的开发过程中,代码格式化是一个看似细微却至关重要的环节,良好的代码格式化不仅能提升代码的可读性,还能促进团队协作,减少因代码风格差异引发的问题,Go在代码格式... 目录一、Go 语言代码格式化的重要性二、Go 语言代码格式化工具:gofmt 与 go fmt(一)

Python虚拟环境与Conda使用指南分享

《Python虚拟环境与Conda使用指南分享》:本文主要介绍Python虚拟环境与Conda使用指南,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、python 虚拟环境概述1.1 什么是虚拟环境1.2 为什么需要虚拟环境二、Python 内置的虚拟环境工具

Python实现自动化Word文档样式复制与内容生成

《Python实现自动化Word文档样式复制与内容生成》在办公自动化领域,高效处理Word文档的样式和内容复制是一个常见需求,本文将展示如何利用Python的python-docx库实现... 目录一、为什么需要自动化 Word 文档处理二、核心功能实现:样式与表格的深度复制1. 表格复制(含样式与内容)2

python如何生成指定文件大小

《python如何生成指定文件大小》:本文主要介绍python如何生成指定文件大小的实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录python生成指定文件大小方法一(速度最快)方法二(中等速度)方法三(生成可读文本文件–较慢)方法四(使用内存映射高效生成

Maven项目中集成数据库文档生成工具的操作步骤

《Maven项目中集成数据库文档生成工具的操作步骤》在Maven项目中,可以通过集成数据库文档生成工具来自动生成数据库文档,本文为大家整理了使用screw-maven-plugin(推荐)的完... 目录1. 添加插件配置到 pom.XML2. 配置数据库信息3. 执行生成命令4. 高级配置选项5. 注意事

Python处理大量Excel文件的十个技巧分享

《Python处理大量Excel文件的十个技巧分享》每天被大量Excel文件折磨的你看过来!这是一份Python程序员整理的实用技巧,不说废话,直接上干货,文章通过代码示例讲解的非常详细,需要的朋友可... 目录一、批量读取多个Excel文件二、选择性读取工作表和列三、自动调整格式和样式四、智能数据清洗五、

MybatisX快速生成增删改查的方法示例

《MybatisX快速生成增删改查的方法示例》MybatisX是基于IDEA的MyBatis/MyBatis-Plus开发插件,本文主要介绍了MybatisX快速生成增删改查的方法示例,文中通过示例代... 目录1 安装2 基本功能2.1 XML跳转2.2 代码生成2.2.1 生成.xml中的sql语句头2

JDK9到JDK21中值得掌握的29个实用特性分享

《JDK9到JDK21中值得掌握的29个实用特性分享》Java的演进节奏从JDK9开始显著加快,每半年一个新版本的发布节奏为Java带来了大量的新特性,本文整理了29个JDK9到JDK21中值得掌握的... 目录JDK 9 模块化与API增强1. 集合工厂方法:一行代码创建不可变集合2. 私有接口方法:接口