VW-LMM 统一多模态自回归建模框架

2024-04-27 19:36

本文主要是介绍VW-LMM 统一多模态自回归建模框架,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

将自回归建模扩展到多模态场景以构建大型多模态模型(LMMs)时,存在一个很大的困难,即图像信息在 LMM 中被处理为连续的视觉嵌入,无法获得离散的监督标签用于进行分类损失计算。

该文首次成功地进行了采用统一目标的多模态自回归建模,并且进一步探讨了 LLMs 内部语义空间中视觉特征的分布以及使用文本嵌入来表示视觉信息的可能性。

论文题目:
Multi-modal Auto-regressive Modeling via Visual Words
论文地址:https://export.arxiv.org/abs/2403.07720
代码地址:https://github.com/pengts/VW-LMM
Hugging Face库:https://huggingface.co/MYTH-Lab/VW-LMM-Vicuna-7b
https://huggingface.co/MYTH-Lab/VW-LMM-Mistral-7b
https://huggingface.co/MYTH-Lab/VW-LMM-Vicuna-pif-7b

主流的 LMM 选择仅计算多模态交织序列中的语言部分的损失,将视觉信息视作上下文提示。另一类方法提出在训练阶段使用回归任务来预测下一个视觉特征的值,但其视觉和语言组件的不一致优化目标不利于统一的多模态自回归建模。

研究者提出了 VW-LMM(visual word large multi-modal model)。VW-LMM 引入了视觉词(visual words)的概念,用于构建视觉特征在LMM内部语义空间中的分布,为视觉建模(visual modeling)提供了监督信息。

在这里插入图片描述
一个视觉编码器(visual encoder),一个多模态解码器(multi-modal decoder),一个用于视觉-语言投影的适配器(adapter),一个用于多模态建模的多模态建模头(multi-modal modeling head,下称 MM head),以及与之对应的用于视觉建模的 VM head。

这篇关于VW-LMM 统一多模态自回归建模框架的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/941351

相关文章

C++ HTTP框架推荐(特点及优势)

《C++HTTP框架推荐(特点及优势)》:本文主要介绍C++HTTP框架推荐的相关资料,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录1. Crow2. Drogon3. Pistache4. cpp-httplib5. Beast (Boos

SpringBoot基础框架详解

《SpringBoot基础框架详解》SpringBoot开发目的是为了简化Spring应用的创建、运行、调试和部署等,使用SpringBoot可以不用或者只需要很少的Spring配置就可以让企业项目快... 目录SpringBoot基础 – 框架介绍1.SpringBoot介绍1.1 概述1.2 核心功能2

Spring框架中@Lazy延迟加载原理和使用详解

《Spring框架中@Lazy延迟加载原理和使用详解》:本文主要介绍Spring框架中@Lazy延迟加载原理和使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录一、@Lazy延迟加载原理1.延迟加载原理1.1 @Lazy三种配置方法1.2 @Component

gradle第三方Jar包依赖统一管理方式

《gradle第三方Jar包依赖统一管理方式》:本文主要介绍gradle第三方Jar包依赖统一管理方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录背景实现1.顶层模块build.gradle添加依赖管理插件2.顶层模块build.gradle添加所有管理依赖包

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

Python GUI框架中的PyQt详解

《PythonGUI框架中的PyQt详解》PyQt是Python语言中最强大且广泛应用的GUI框架之一,基于Qt库的Python绑定实现,本文将深入解析PyQt的核心模块,并通过代码示例展示其应用场... 目录一、PyQt核心模块概览二、核心模块详解与示例1. QtCore - 核心基础模块2. QtWid

最新Spring Security实战教程之Spring Security安全框架指南

《最新SpringSecurity实战教程之SpringSecurity安全框架指南》SpringSecurity是Spring生态系统中的核心组件,提供认证、授权和防护机制,以保护应用免受各种安... 目录前言什么是Spring Security?同类框架对比Spring Security典型应用场景传统

Python结合Flask框架构建一个简易的远程控制系统

《Python结合Flask框架构建一个简易的远程控制系统》这篇文章主要为大家详细介绍了如何使用Python与Flask框架构建一个简易的远程控制系统,能够远程执行操作命令(如关机、重启、锁屏等),还... 目录1.概述2.功能使用系统命令执行实时屏幕监控3. BUG修复过程1. Authorization

SpringBoot集成图片验证码框架easy-captcha的详细过程

《SpringBoot集成图片验证码框架easy-captcha的详细过程》本文介绍了如何将Easy-Captcha框架集成到SpringBoot项目中,实现图片验证码功能,Easy-Captcha是... 目录SpringBoot集成图片验证码框架easy-captcha一、引言二、依赖三、代码1. Ea