[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - 语言模型篇(1)

2024-08-23 18:36

本文主要是介绍[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - 语言模型篇(1),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

多模态大模型源码阅读 - 语言模型篇(1)

  • 吐槽
  • 今日心得
    • MQwen.py

吐槽

想要做一个以Qwen-7B-Insturct为language decoder, 以CLIP-VIT-14为vision encoder的image captioning模型,找了很多文章和库的源码,但是无奈都不怎么看得懂,刚开始打算直接给language decoder加上cross attention层对接vison encoder的图片编码结果,无奈不会写TAT,看了Qwen的源码半天都没搞懂这么多类是干什么的,心累。今天机缘巧合在Github上刷到一个北邮学生手搓的多模态模型,改了改Qwen的forward方法和其他一些配置,看起来比文献和transformers里的源码简易一些,遂打算好好钻研一下。

今日心得

由于今天找到这个repo的时间段比较晚,所以也没有看太多源码,浅谈一下今天阅读到的源码。

MQwen.py

在这个py文件里重写了Qwen的forward方法,可以看到从当前文件前中导入了QWenLMHeadModel等QWen源码中的类,继承了QWenModel的成员变量和方法,并且重写了QWenModel,初始化传入两个参数,otherConfig应该是自己的参数。

from .modeling_qwen import QWenLMHeadModel, QWenModel, BaseModelOutputWithPast, loggerclass MQWenModel(QWenModel):def __init__(self, config, otherConfig):super().__init__(config)self.otherConfig = otherConfig

forward方法里传入的变量如下:
input_ids:输入序列的索引,将token映射为唯一的整数数字索引
images: 传递入的图像特征
past_key_values:用于存储过去计算得到的键值对,用来加速训练,减少重复计算
attention_mask:没什么好说的,注意力掩码,用来防止信息泄露,指定序列中参与注意力计算的部分
tojken_type_ids:指定不同类型的token
position_ids:老熟人,位置索引,提供token的位置信息
head_mask:和attention_mask相似,用于指定那些头的信息应该被忽略/关注
input_embeds:input_ids编码后的结果
use_cache:指定是否使用缓存的past_key_values加速训练
return_dict:指定返回值的形式是否为字典

def forward(self,input_ids: Optional[torch.LongTensor] = None,images: Optional[torch.Tensor] = None,past_key_values: Optional[Tuple[Tuple[torch.Tensor]]] = None,attention_mask: Optional[torch.FloatTensor] = None,token_type_ids: Optional[torch.LongTensor] = None,position_ids: Optional[torch.LongTensor] = None,head_mask: Optional[torch.FloatTensor] = None,inputs_embeds: Optional[torch.FloatTensor] = None,encoder_hidden_states: Optional[torch.Tensor] = None,encoder_attention_mask: Optional[torch.FloatTensor] = None,use_cache: Optional[bool] = None,output_attentions: Optional[bool] = None,output_hidden_states: Optional[bool] = None,return_dict: Optional[bool] = None,):

device指定我们使用cuda还是cpu, first_step变量判断是否是处理序列数据的第一步。如果提供了图像特征并且past_key_values为None,代表我们在处理一个新序列的开始。用torch.where函数判断输入的input_ids哪些地方应该被替换为图像信息,返回值代表了每个批次中,图像信息所在的列索引。根据列索引去除input_ids中每个批次的image_token。最后通过torch.stack方法重新构建一个去除了image_token的input_ids,至此第一步处理完成。

 device = input_ids.device if input_ids is not None else inputs_embeds.devicefirst_step = Falseif images is not None and past_key_values is None:image_index = torch.where(input_ids == self.otherConfig["replace_token_id"])[1]new_input_ids = []for b_idx, img_idx in enumerate(image_index):device = input_ids.device if input_ids is not None else inputs_embeds.devicefirst_step = Falseif images is not None and past_key_values is None:image_index = torch.where(input_ids == self.otherConfig["replace_token_id"])[1]new_input_ids = []for b_idx, img_idx in enumerate(image_index):new_input_ids.append(torch.cat([input_ids[b_idx][:img_idx], input_ids[b_idx][img_idx+1:]], dim = 0))   #############  concat image and textinput_ids = torch.stack(new_input_ids, dim = 0).to(input_ids)first_step = True

这篇关于[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - 语言模型篇(1)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1100178

相关文章

C语言中位操作的实际应用举例

《C语言中位操作的实际应用举例》:本文主要介绍C语言中位操作的实际应用,总结了位操作的使用场景,并指出了需要注意的问题,如可读性、平台依赖性和溢出风险,文中通过代码介绍的非常详细,需要的朋友可以参... 目录1. 嵌入式系统与硬件寄存器操作2. 网络协议解析3. 图像处理与颜色编码4. 高效处理布尔标志集合

Go语言开发实现查询IP信息的MCP服务器

《Go语言开发实现查询IP信息的MCP服务器》随着MCP的快速普及和广泛应用,MCP服务器也层出不穷,本文将详细介绍如何在Go语言中使用go-mcp库来开发一个查询IP信息的MCP... 目录前言mcp-ip-geo 服务器目录结构说明查询 IP 信息功能实现工具实现工具管理查询单个 IP 信息工具的实现服

C 语言中enum枚举的定义和使用小结

《C语言中enum枚举的定义和使用小结》在C语言里,enum(枚举)是一种用户自定义的数据类型,它能够让你创建一组具名的整数常量,下面我会从定义、使用、特性等方面详细介绍enum,感兴趣的朋友一起看... 目录1、引言2、基本定义3、定义枚举变量4、自定义枚举常量的值5、枚举与switch语句结合使用6、枚

Java 正则表达式URL 匹配与源码全解析

《Java正则表达式URL匹配与源码全解析》在Web应用开发中,我们经常需要对URL进行格式验证,今天我们结合Java的Pattern和Matcher类,深入理解正则表达式在实际应用中... 目录1.正则表达式分解:2. 添加域名匹配 (2)3. 添加路径和查询参数匹配 (3) 4. 最终优化版本5.设计思

Go 语言中的select语句详解及工作原理

《Go语言中的select语句详解及工作原理》在Go语言中,select语句是用于处理多个通道(channel)操作的一种控制结构,它类似于switch语句,本文给大家介绍Go语言中的select语... 目录Go 语言中的 select 是做什么的基本功能语法工作原理示例示例 1:监听多个通道示例 2:带

C语言函数递归实际应用举例详解

《C语言函数递归实际应用举例详解》程序调用自身的编程技巧称为递归,递归做为一种算法在程序设计语言中广泛应用,:本文主要介绍C语言函数递归实际应用举例的相关资料,文中通过代码介绍的非常详细,需要的朋... 目录前言一、递归的概念与思想二、递归的限制条件 三、递归的实际应用举例(一)求 n 的阶乘(二)顺序打印

Spring Security基于数据库的ABAC属性权限模型实战开发教程

《SpringSecurity基于数据库的ABAC属性权限模型实战开发教程》:本文主要介绍SpringSecurity基于数据库的ABAC属性权限模型实战开发教程,本文给大家介绍的非常详细,对大... 目录1. 前言2. 权限决策依据RBACABAC综合对比3. 数据库表结构说明4. 实战开始5. MyBA

Java调用C++动态库超详细步骤讲解(附源码)

《Java调用C++动态库超详细步骤讲解(附源码)》C语言因其高效和接近硬件的特性,时常会被用在性能要求较高或者需要直接操作硬件的场合,:本文主要介绍Java调用C++动态库的相关资料,文中通过代... 目录一、直接调用C++库第一步:动态库生成(vs2017+qt5.12.10)第二步:Java调用C++

Python实现无痛修改第三方库源码的方法详解

《Python实现无痛修改第三方库源码的方法详解》很多时候,我们下载的第三方库是不会有需求不满足的情况,但也有极少的情况,第三方库没有兼顾到需求,本文将介绍几个修改源码的操作,大家可以根据需求进行选择... 目录需求不符合模拟示例 1. 修改源文件2. 继承修改3. 猴子补丁4. 追踪局部变量需求不符合很

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容:标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO(blocking I/O)NI