[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - 语言模型篇(1)

2024-08-23 18:36

本文主要是介绍[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - 语言模型篇(1),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

多模态大模型源码阅读 - 语言模型篇(1)

  • 吐槽
  • 今日心得
    • MQwen.py

吐槽

想要做一个以Qwen-7B-Insturct为language decoder, 以CLIP-VIT-14为vision encoder的image captioning模型,找了很多文章和库的源码,但是无奈都不怎么看得懂,刚开始打算直接给language decoder加上cross attention层对接vison encoder的图片编码结果,无奈不会写TAT,看了Qwen的源码半天都没搞懂这么多类是干什么的,心累。今天机缘巧合在Github上刷到一个北邮学生手搓的多模态模型,改了改Qwen的forward方法和其他一些配置,看起来比文献和transformers里的源码简易一些,遂打算好好钻研一下。

今日心得

由于今天找到这个repo的时间段比较晚,所以也没有看太多源码,浅谈一下今天阅读到的源码。

MQwen.py

在这个py文件里重写了Qwen的forward方法,可以看到从当前文件前中导入了QWenLMHeadModel等QWen源码中的类,继承了QWenModel的成员变量和方法,并且重写了QWenModel,初始化传入两个参数,otherConfig应该是自己的参数。

from .modeling_qwen import QWenLMHeadModel, QWenModel, BaseModelOutputWithPast, loggerclass MQWenModel(QWenModel):def __init__(self, config, otherConfig):super().__init__(config)self.otherConfig = otherConfig

forward方法里传入的变量如下:
input_ids:输入序列的索引,将token映射为唯一的整数数字索引
images: 传递入的图像特征
past_key_values:用于存储过去计算得到的键值对,用来加速训练,减少重复计算
attention_mask:没什么好说的,注意力掩码,用来防止信息泄露,指定序列中参与注意力计算的部分
tojken_type_ids:指定不同类型的token
position_ids:老熟人,位置索引,提供token的位置信息
head_mask:和attention_mask相似,用于指定那些头的信息应该被忽略/关注
input_embeds:input_ids编码后的结果
use_cache:指定是否使用缓存的past_key_values加速训练
return_dict:指定返回值的形式是否为字典

def forward(self,input_ids: Optional[torch.LongTensor] = None,images: Optional[torch.Tensor] = None,past_key_values: Optional[Tuple[Tuple[torch.Tensor]]] = None,attention_mask: Optional[torch.FloatTensor] = None,token_type_ids: Optional[torch.LongTensor] = None,position_ids: Optional[torch.LongTensor] = None,head_mask: Optional[torch.FloatTensor] = None,inputs_embeds: Optional[torch.FloatTensor] = None,encoder_hidden_states: Optional[torch.Tensor] = None,encoder_attention_mask: Optional[torch.FloatTensor] = None,use_cache: Optional[bool] = None,output_attentions: Optional[bool] = None,output_hidden_states: Optional[bool] = None,return_dict: Optional[bool] = None,):

device指定我们使用cuda还是cpu, first_step变量判断是否是处理序列数据的第一步。如果提供了图像特征并且past_key_values为None,代表我们在处理一个新序列的开始。用torch.where函数判断输入的input_ids哪些地方应该被替换为图像信息,返回值代表了每个批次中,图像信息所在的列索引。根据列索引去除input_ids中每个批次的image_token。最后通过torch.stack方法重新构建一个去除了image_token的input_ids,至此第一步处理完成。

 device = input_ids.device if input_ids is not None else inputs_embeds.devicefirst_step = Falseif images is not None and past_key_values is None:image_index = torch.where(input_ids == self.otherConfig["replace_token_id"])[1]new_input_ids = []for b_idx, img_idx in enumerate(image_index):device = input_ids.device if input_ids is not None else inputs_embeds.devicefirst_step = Falseif images is not None and past_key_values is None:image_index = torch.where(input_ids == self.otherConfig["replace_token_id"])[1]new_input_ids = []for b_idx, img_idx in enumerate(image_index):new_input_ids.append(torch.cat([input_ids[b_idx][:img_idx], input_ids[b_idx][img_idx+1:]], dim = 0))   #############  concat image and textinput_ids = torch.stack(new_input_ids, dim = 0).to(input_ids)first_step = True

这篇关于[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - 语言模型篇(1)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1100178

相关文章

GO语言短变量声明的实现示例

《GO语言短变量声明的实现示例》在Go语言中,短变量声明是一种简洁的变量声明方式,使用:=运算符,可以自动推断变量类型,下面就来具体介绍一下如何使用,感兴趣的可以了解一下... 目录基本语法功能特点与var的区别适用场景注意事项基本语法variableName := value功能特点1、自动类型推

GO语言中函数命名返回值的使用

《GO语言中函数命名返回值的使用》在Go语言中,函数可以为其返回值指定名称,这被称为命名返回值或命名返回参数,这种特性可以使代码更清晰,特别是在返回多个值时,感兴趣的可以了解一下... 目录基本语法函数命名返回特点代码示例命名特点基本语法func functionName(parameters) (nam

Go语言连接MySQL数据库执行基本的增删改查

《Go语言连接MySQL数据库执行基本的增删改查》在后端开发中,MySQL是最常用的关系型数据库之一,本文主要为大家详细介绍了如何使用Go连接MySQL数据库并执行基本的增删改查吧... 目录Go语言连接mysql数据库准备工作安装 MySQL 驱动代码实现运行结果注意事项Go语言执行基本的增删改查准备工作

Go语言使用Gin处理路由参数和查询参数

《Go语言使用Gin处理路由参数和查询参数》在WebAPI开发中,处理路由参数(PathParameter)和查询参数(QueryParameter)是非常常见的需求,下面我们就来看看Go语言... 目录一、路由参数 vs 查询参数二、Gin 获取路由参数和查询参数三、示例代码四、运行与测试1. 测试编程路

Go语言使用net/http构建一个RESTful API的示例代码

《Go语言使用net/http构建一个RESTfulAPI的示例代码》Go的标准库net/http提供了构建Web服务所需的强大功能,虽然众多第三方框架(如Gin、Echo)已经封装了很多功能,但... 目录引言一、什么是 RESTful API?二、实战目标:用户信息管理 API三、代码实现1. 用户数据

Go语言网络故障诊断与调试技巧

《Go语言网络故障诊断与调试技巧》在分布式系统和微服务架构的浪潮中,网络编程成为系统性能和可靠性的核心支柱,从高并发的API服务到实时通信应用,网络的稳定性直接影响用户体验,本文面向熟悉Go基本语法和... 目录1. 引言2. Go 语言网络编程的优势与特色2.1 简洁高效的标准库2.2 强大的并发模型2.

Go语言使用sync.Mutex实现资源加锁

《Go语言使用sync.Mutex实现资源加锁》数据共享是一把双刃剑,Go语言为我们提供了sync.Mutex,一种最基础也是最常用的加锁方式,用于保证在任意时刻只有一个goroutine能访问共享... 目录一、什么是 Mutex二、为什么需要加锁三、实战案例:并发安全的计数器1. 未加锁示例(存在竞态)

C语言自定义类型之联合和枚举解读

《C语言自定义类型之联合和枚举解读》联合体共享内存,大小由最大成员决定,遵循对齐规则;枚举类型列举可能值,提升可读性和类型安全性,两者在C语言中用于优化内存和程序效率... 目录一、联合体1.1 联合体类型的声明1.2 联合体的特点1.2.1 特点11.2.2 特点21.2.3 特点31.3 联合体的大小1

Go语言使用select监听多个channel的示例详解

《Go语言使用select监听多个channel的示例详解》本文将聚焦Go并发中的一个强力工具,select,这篇文章将通过实际案例学习如何优雅地监听多个Channel,实现多任务处理、超时控制和非阻... 目录一、前言:为什么要使用select二、实战目标三、案例代码:监听两个任务结果和超时四、运行示例五

C语言中%zu的用法解读

《C语言中%zu的用法解读》size_t是无符号整数类型,用于表示对象大小或内存操作结果,%zu是C99标准中专为size_t设计的printf占位符,避免因类型不匹配导致错误,使用%u或%d可能引发... 目录size_t 类型与 %zu 占位符%zu 的用途替代占位符的风险兼容性说明其他相关占位符验证示