【论文极速读】EMT——评估多模态LLM中的灾难性遗忘问题

2023-10-08 16:45

本文主要是介绍【论文极速读】EMT——评估多模态LLM中的灾难性遗忘问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【论文极速读】EMT——评估多模态LLM中的灾难性遗忘问题
FesianXu 20231001 at Baidu Search Team

前言

论文[1]报告了多模态LLM中遇到的灾难性遗忘问题,并且提出了一种评估其程度的方法EMT,本文简要介绍,希望对读者有所帮助。如有谬误请见谅并联系指出,本文遵守CC 4.0 BY-SA版权协议,转载请联系作者并注明出处,谢谢。

∇ \nabla 联系方式:

e-mail: FesianXu@gmail.com

github: https://github.com/FesianXu

知乎专栏: 计算机视觉/计算机图形理论与应用(https://www.zhihu.com/column/c_1265262560611299328)

微信公众号:机器学习杂货铺3号店


灾难性遗忘(Catastrophic forgetting)是在深度学习领域的一个概念,指的是模型在学习一个新目标的时候,对热启模型信息忘却的一个现象,比如在采用预训练模型作为热启,对模型进行微调导致模型对预训练模型信息的忘却。论文[1]报告了在多模态大规模语言模型(Multimodal Large Language Model, MLLM)中遇到的灾难性遗忘现象。通常来说,MLLM的视觉信息部分由视觉编码器(如ViT、Resnet等)组成,作者在论文中发现MLLM的图片分类能力对比原视觉编码器而言,会出现分类性能的下降,而在对MLLM进行微调后,发现会出现灾难性遗忘,作者提出一个称之为EMT的框架去评估(取名得纯纯二次元呢:P)。

所谓的EMT(Evaluating MulTimodality),如Fig 1.所示,首先输入待评估图片和prompt,让MLLM去对图片类别进行预测,由于LLM是生成式模型,其输出格式具有一定的不可控性,这意味着其预测输出和真实label之间可能是语义相同(semantic match)的,但是字面上却不匹配(lexical mismatch),因此在下游接入另一个LLM(比如GPT 3.5 turbo)进行预测结果的评估。
emt-framework

Fig 1. EMT的框架示意图。

通过这种方法,作者评估了LLaVA-7b、LLaVA13b与其视觉编码器CLIP的性能差异,见Fig 2. (a),同样的,作者也评估了LENS与openCLIP,InstructBLIP 7b、InstructBLIP 13b与openCLIP性能的差别,在各个图像分类测试集中结果绘制成玫瑰图,如Fig 2.所示。不难发现,绝大部分情况下MLLM的视觉分类能力都弱与其原生采用的视觉编码器CLIP,只有在ViT-g-14上的CIFAR-10数据上有所特殊。当然,这个可能和作者采用的prompt也有很大关系,众所周知,prompt模板的好坏对LLM的性能影响很大,这一点在之前的博文 [2] 中也曾经讨论过。
mllm-vision-worser-than-baseline

Fig 2. MLLM的视觉分类能力比其采用的图像编码器的分类能力更弱。

作者认为其性能下降主要有以下三种情况:预测错误(incorrect prediction),内部幻觉(intrinsic hallucination),外部幻觉(extrinsic hallucination),如下所示,具体细节请参考原论文。
emt-degrade-types
为何会产生性能下降呢?一个直接的想法就是,视觉语义和LLM的文本语义未完全对齐,导致对LLM的提问不能从知识库中检索出来(笔者:当然也不能排除prompt不合适的原因)。这点容易理解,假如视觉语义和文本语义已经对齐,那么对MLLM的提问,其实本质上就是在prompt中指定的若干个类别中检索一个语义最为接近的类别进行返回,如果没对齐,那么就会预测错误,如果LLM没能充分理解prompt的语义,则会出现幻觉。基于这种想法,可以对MLLM进行微调以更好地对齐多模语义,或者让LLM理解prompt语义,这种微调可以有几种,比如LoRA,Linear适配,prompt tuning,P-Tuning等,本文作者采用了LoRA和Linear适配。

  1. LoRA,采用Low Rank技术增加一些低秩矩阵参数,具体可见 [3]。
  2. Linear适配,在视觉编码向量 Z v Z_v Zv后新增一个线性投影层,得到 H v = W ⋅ Z v H_v = \mathbf{W} \cdot Z_v Hv=WZv作为输入到MLLM的视觉特征。

如Fig 3.所示,作者用LLaVA 6b和13b在不同数据集上进行微调了3个epoch,然后在其他数据集上进行测试,绘制出玫瑰图。不难发现大部分出现了灾难性遗忘情况(基线为7b-v0和13b-v0),也即是在某个数据集上微调在其他测试集上测试,其结果甚至远远低于基线,特别是采用lora微调的遗忘情况比linear适配的更为严重。由于LoRA会对LLM本身参数进行更新(低秩矩阵参数也是LLM的一部分),而Linear适配只是对视觉语义和文本语义进行对齐,因此猜测是对LLM的不当微调更容易导致幻觉。
emt-finetune

Fig 3. LLaVA 6b和13b下微调了3个epoch,采用LoRA和Linear适配的结果对比,可以发现都出现了过拟合情况。

当然,3个epoch的微调可能对于MLLM来说太多了,作者同样对epoch的数量进行了探索,如Fig 4.所示,(a)是Linear适配而(b)是同时更新Linear适配层和LoRA参数。有几点观察:

  1. 在只对Linear适配层进行更新的配置下,少量的微调(比如一个epoch内)能帮助视觉和文本语义的对齐。
  2. 采用Linear和LoRA同时更新的结果,其灾难性遗忘现象严重,对LLM层参数的不当更新会导致严重的幻觉。
  3. 微调数据集足够多样化能够帮助减缓灾难性遗忘,这一点可从Fig 4. (a)的在CIFAR 10、CIFAR 100数据集上的微调结果中看出来。

因此,在期望对MLLM进行微调的时候其下游数据集需要进行精心设计,尽可能保证微调数据集的多样性,并且微调方式也需要多考虑,尽可能不要碰LLM的原先参数,笔者觉得也许Prompt Tuning会是一个更好的方式,可以结合Linear适配和Prompt Tuning进行微调的实验尝试。我们就当LLM通过大规模的预训练已经语义完备了,MLLM的语义对齐就交给视觉端进行吧,其实理论上说,语义对齐这个能力应该交给上游的CLIP对比学习完成,但是可能出现语义漂移,因此适当的下游任务语义对齐也是必要的。
emt-finetune-epoch

Fig 4 采用了不同epoch数量的测试结果,同时作者对比了(a)线性适配和(b)同时更新线性适配层和LoRA参数。

Reference

[1]. Zhai, Yuexiang, et al. “Investigating the Catastrophic Forgetting in Multimodal Large Language Models.” arXiv preprint arXiv:2309.10313 (2023).

[2]. https://blog.csdn.net/LoseInVain/article/details/133385359, 《【论文极速读】Prompt Tuning——一种高效的LLM模型下游任务适配方式》

[3]. Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685, 2021

这篇关于【论文极速读】EMT——评估多模态LLM中的灾难性遗忘问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/166658

相关文章

IDEA和GIT关于文件中LF和CRLF问题及解决

《IDEA和GIT关于文件中LF和CRLF问题及解决》文章总结:因IDEA默认使用CRLF换行符导致Shell脚本在Linux运行报错,需在编辑器和Git中统一为LF,通过调整Git的core.aut... 目录问题描述问题思考解决过程总结问题描述项目软件安装shell脚本上git仓库管理,但拉取后,上l

idea npm install很慢问题及解决(nodejs)

《ideanpminstall很慢问题及解决(nodejs)》npm安装速度慢可通过配置国内镜像源(如淘宝)、清理缓存及切换工具解决,建议设置全局镜像(npmconfigsetregistryht... 目录idea npm install很慢(nodejs)配置国内镜像源清理缓存总结idea npm in

pycharm跑python项目易出错的问题总结

《pycharm跑python项目易出错的问题总结》:本文主要介绍pycharm跑python项目易出错问题的相关资料,当你在PyCharm中运行Python程序时遇到报错,可以按照以下步骤进行排... 1. 一定不要在pycharm终端里面创建环境安装别人的项目子模块等,有可能出现的问题就是你不报错都安装

idea突然报错Malformed \uxxxx encoding问题及解决

《idea突然报错Malformeduxxxxencoding问题及解决》Maven项目在切换Git分支时报错,提示project元素为描述符根元素,解决方法:删除Maven仓库中的resolv... 目www.chinasem.cn录问题解决方式总结问题idea 上的 maven China编程项目突然报错,是

Python爬虫HTTPS使用requests,httpx,aiohttp实战中的证书异步等问题

《Python爬虫HTTPS使用requests,httpx,aiohttp实战中的证书异步等问题》在爬虫工程里,“HTTPS”是绕不开的话题,HTTPS为传输加密提供保护,同时也给爬虫带来证书校验、... 目录一、核心问题与优先级检查(先问三件事)二、基础示例:requests 与证书处理三、高并发选型:

前端导出Excel文件出现乱码或文件损坏问题的解决办法

《前端导出Excel文件出现乱码或文件损坏问题的解决办法》在现代网页应用程序中,前端有时需要与后端进行数据交互,包括下载文件,:本文主要介绍前端导出Excel文件出现乱码或文件损坏问题的解决办法,... 目录1. 检查后端返回的数据格式2. 前端正确处理二进制数据方案 1:直接下载(推荐)方案 2:手动构造

Python绘制TSP、VRP问题求解结果图全过程

《Python绘制TSP、VRP问题求解结果图全过程》本文介绍用Python绘制TSP和VRP问题的静态与动态结果图,静态图展示路径,动态图通过matplotlib.animation模块实现动画效果... 目录一、静态图二、动态图总结【代码】python绘制TSP、VRP问题求解结果图(包含静态图与动态图

MyBatis/MyBatis-Plus同事务循环调用存储过程获取主键重复问题分析及解决

《MyBatis/MyBatis-Plus同事务循环调用存储过程获取主键重复问题分析及解决》MyBatis默认开启一级缓存,同一事务中循环调用查询方法时会重复使用缓存数据,导致获取的序列主键值均为1,... 目录问题原因解决办法如果是存储过程总结问题myBATis有如下代码获取序列作为主键IdMappe

k8s容器放开锁内存限制问题

《k8s容器放开锁内存限制问题》nccl-test容器运行mpirun时因NCCL_BUFFSIZE过大导致OOM,需通过修改docker服务配置文件,将LimitMEMLOCK设为infinity并... 目录问题问题确认放开容器max locked memory限制总结参考:https://Access

Java中字符编码问题的解决方法详解

《Java中字符编码问题的解决方法详解》在日常Java开发中,字符编码问题是一个非常常见却又特别容易踩坑的地方,这篇文章就带你一步一步看清楚字符编码的来龙去脉,并结合可运行的代码,看看如何在Java项... 目录前言背景:为什么会出现编码问题常见场景分析控制台输出乱码文件读写乱码数据库存取乱码解决方案统一使