MLLM(一)| 文/图生视频任务大升级,BigModel 开源了视频模型CogVideoX

2024-09-03 03:12

本文主要是介绍MLLM(一)| 文/图生视频任务大升级,BigModel 开源了视频模型CogVideoX,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

图片

CogVideoX的体验地址:https://bigmodel.cn/console/trialcenter?modelCode=cogvideox

     自2021年起,智谱 AI 技术团队便开始着手布局包括 text-2-img、text-2-video、img-2-text、video-2-text 在内的多模态模型,并陆续研发并开源了CogView、CogVideo、Relay Diffusion、CogVLM、CogVLM-Video等多个先进模型。近期,智谱 AI 正式开源新一代视频大模型——CogVideoX。

一、CogVideoX的核心技术特点如下:

       针对内容连贯性问题,智谱AI自主研发了一套高效的三维变分自编码器结构(3D VAE)。该结构能够将原始视频数据压缩至原始大小的2%,显著降低了视频扩散生成模型的训练成本和难度。结合3D RoPE位置编码模块,该技术有效提升了在时间维度上对帧间关系的捕捉能力,从而建立了视频中的长期依赖关系。

      在可控性方面,智谱AI打造了一款端到端的视频理解模型,该模型能够为大量视频数据生成精确且内容相关的描述。这一创新增强了模型对文本的理解和对指令的遵循能力,确保生成的视频更加符合用户的输入需求,并能够处理超长且复杂的prompt指令。

      模型采纳了一种将文本、时间、空间三维一体融合的transformer架构。该架构摒弃了传统的cross attention模块,创新性地设计了Expert Block以实现文本与视频两种不同模态空间的对齐,并通过Full Attention机制优化模态间的交互效果。

      CogVideoX 模型目前已在bigmodel.cn平台上线了,基于CogVideoX的产品「清影」(Ying)上线PC端,免费体验AI文本生成视频和图像生成视频的服务。

二、下面是使用bigmodel开放平台的体验示例:

2.1、图生视频

1)Prompt:城市中湖边上有一对情侣在缓慢散步

图片如下所示:

图片

生成的视频如下:

请参见:MLLM(一)| 文/图生视频任务大升级,BigModel 开源了视频模型CogVideoX

生成的效果不错,非常高清。

2.2、文生视频

1)Prompt:一位头发苍白的老人(主体)站在海边(环境描述)看日落(动作)

生成的视频如下:

 请参见:MLLM(一)| 文/图生视频任务大升级,BigModel 开源了视频模型CogVideoX

2)Prompt:特写镜头(镜头描述),清晨的微光(光线运用),两只鸳鸯在海面上嬉戏,鸳鸯是彩色羽毛(主体描述),背景国贸大厦(环境描述)。

 请参见:MLLM(一)| 文/图生视频任务大升级,BigModel 开源了视频模型CogVideoX

3)Prompt:小狗在空地上画画

 请参见:MLLM(一)| 文/图生视频任务大升级,BigModel 开源了视频模型CogVideoX

三、使用API生成视频

首先,需要在官网申请API Key,申请地址:https://bigmodel.cn

然后,使用如下脚本生成视频

from zhipuai import ZhipuAI
client = ZhipuAI(api_key="") # 请填写您自己的APIKeyresponse = client.videos.generations(model="cogvideox",prompt="小狗在空地上画画。"
)
print(response)

生成VideoObject对象,其中id为视频唯一识别号。

VideoObject(id='636617217207461558911210927746488763', model='cogvideox', video_result=None, task_status='PROCESSING', request_id='8911210927746488759')

接下来,使用上述生成的视频id抽取视频内容。

from zhipuai import ZhipuAI
client = ZhipuAI(api_key="") # 请填写您自己的APIKeyresponse = client.videos.retrieve_videos_result(id="636617217207461558911210927746488763"
)
print(response)

抽取视频内容后,会生成视频的url和其中一帧图片的url,具体如下所示:

VideoObject(id=None, model='cogvideox', video_result=[VideoResult(url='https://sfile.chatglm.cn/testpath/video/f0048f7d-e6ed-5cf9-810d-38f14631f9de_0.mp4', cover_image_url='https://sfile.chatglm.cn/testpath/video_cover/f0048f7d-e6ed-5cf9-810d-38f14631f9de_cover_0.png')], task_status='SUCCESS', request_id='8911210927746488759')

生成的视频,如下所示:

 请参见:MLLM(一)| 文/图生视频任务大升级,BigModel 开源了视频模型CogVideoX

生成的图片,如下图所示:

图片

总结:

       从图生视频和文生视频的效果来看,主体和主要动作都完美的生成了,而且非常高清。

       使用API调用的最大感受是响应速度非常快,几乎感觉不到延时,给智谱点赞👍。

这篇关于MLLM(一)| 文/图生视频任务大升级,BigModel 开源了视频模型CogVideoX的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1131857

相关文章

升级至三频BE12000! 华硕ROG魔盒Pro路由器首发拆解评测

《升级至三频BE12000!华硕ROG魔盒Pro路由器首发拆解评测》华硕前两天推出新一代电竞无线路由器——ROG魔盒Pro(StrixGR7Pro),该产品在无线规格、硬件配置及功能设计上实现全... 作为路由器行业的T1梯队厂商,华硕近期发布了新旗舰华硕ROG魔盒Pro,除了保留DIY属性以外,高达120

Python包管理工具pip的升级指南

《Python包管理工具pip的升级指南》本文全面探讨Python包管理工具pip的升级策略,从基础升级方法到高级技巧,涵盖不同操作系统环境下的最佳实践,我们将深入分析pip的工作原理,介绍多种升级方... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

Python使用OpenCV实现获取视频时长的小工具

《Python使用OpenCV实现获取视频时长的小工具》在处理视频数据时,获取视频的时长是一项常见且基础的需求,本文将详细介绍如何使用Python和OpenCV获取视频时长,并对每一行代码进行深入解析... 目录一、代码实现二、代码解析1. 导入 OpenCV 库2. 定义获取视频时长的函数3. 打开视频文

Golang如何对cron进行二次封装实现指定时间执行定时任务

《Golang如何对cron进行二次封装实现指定时间执行定时任务》:本文主要介绍Golang如何对cron进行二次封装实现指定时间执行定时任务问题,具有很好的参考价值,希望对大家有所帮助,如有错误... 目录背景cron库下载代码示例【1】结构体定义【2】定时任务开启【3】使用示例【4】控制台输出总结背景

在Golang中实现定时任务的几种高效方法

《在Golang中实现定时任务的几种高效方法》本文将详细介绍在Golang中实现定时任务的几种高效方法,包括time包中的Ticker和Timer、第三方库cron的使用,以及基于channel和go... 目录背景介绍目的和范围预期读者文档结构概述术语表核心概念与联系故事引入核心概念解释核心概念之间的关系

springboot如何通过http动态操作xxl-job任务

《springboot如何通过http动态操作xxl-job任务》:本文主要介绍springboot如何通过http动态操作xxl-job任务的问题,具有很好的参考价值,希望对大家有所帮助,如有错... 目录springboot通过http动态操作xxl-job任务一、maven依赖二、配置文件三、xxl-

一文详解MySQL如何设置自动备份任务

《一文详解MySQL如何设置自动备份任务》设置自动备份任务可以确保你的数据库定期备份,防止数据丢失,下面我们就来详细介绍一下如何使用Bash脚本和Cron任务在Linux系统上设置MySQL数据库的自... 目录1. 编写备份脚本1.1 创建并编辑备份脚本1.2 给予脚本执行权限2. 设置 Cron 任务2

Python UV安装、升级、卸载详细步骤记录

《PythonUV安装、升级、卸载详细步骤记录》:本文主要介绍PythonUV安装、升级、卸载的详细步骤,uv是Astral推出的下一代Python包与项目管理器,主打单一可执行文件、极致性能... 目录安装检查升级设置自动补全卸载UV 命令总结 官方文档详见:https://docs.astral.sh/

苹果macOS 26 Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色

《苹果macOS26Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色》在整体系统设计方面,macOS26采用了全新的玻璃质感视觉风格,应用于Dock栏、应用图标以及桌面小部件等多个界面... 科技媒体 MACRumors 昨日(6 月 13 日)发布博文,报道称在 macOS 26 Tahoe 中

华为鸿蒙HarmonyOS 5.1官宣7月开启升级! 首批支持名单公布

《华为鸿蒙HarmonyOS5.1官宣7月开启升级!首批支持名单公布》在刚刚结束的华为Pura80系列及全场景新品发布会上,除了众多新品的发布,还有一个消息也点燃了所有鸿蒙用户的期待,那就是Ha... 在今日的华为 Pura 80 系列及全场景新品发布会上,华为宣布鸿蒙 HarmonyOS 5.1 将于 7