本文主要是介绍【大模型系列】PLLaVA(2024.04),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
- Paper:https://arxiv.org/pdf/2404.16994v2
- Github:https://github.com/magic-research/PLLaVA
- Author:Liu Xu et al., 新加坡国立,纽约大学,字节跳动
文章目录
- 1 PLLaVA总结(省流版)
- 2 Motivation
- 3 网络结构
- 4 模型训练细节
- 4.1 模型
- 4.2 数据
- 5 指标情况
- 5.1 MVBench
- 5.2 Zero-shot VideoQA & Video-ChatGPT
1 PLLaVA总结(省流版)
PLLaVA是由新加坡国立、纽约大学和字节跳动的研究人员提出的一种**视频问答(VideoQA)**方法,其论文研究的核心是video feature的池化策略,研究结果表明:在空间维度上进行池化会产生有益的效果,而在时间维度上进行池化则会产生性能下降。
2 Motivation
作者研究发现:直接使用多个视频帧作为输入去finetune pre-trained image-language models会导致性能饱和甚至下降;针对n-frame和VideoChatGPT进行了研究,由于内存限制,前者引入少量帧,后者通过池化策略压缩了100帧,但是这两个方法都会遇到data scaling的问题,即数据增多,但是效果提升不明显甚至下降。
将长视频输入到MLLM时,temproal information和计算限制都是必须要考虑的问题,Pooling是满足上述2点的最直观和简单方法。前面的两个方法可能源自于帧信息不足和对帧特征的不当处理。
因此文章使用了一种在时间维度上的池化策略,来平滑时间维度上的特征分布Pooling LLaVA(PLLaVA)。
3 网络结构
模型在LLaVANext:7B,13B,34B上进行微调
- 视频首先经过ViT/L和MM projector得到visual features(T, w, h, d)
- visual feature通过adaptative average pooling,有效减少时空维度,得到(T’, w’, h’, d’)
- 再将其flatten,再与question embedding拼接在一起作为LLM的输入
- LLM通过LoRA技术微调
4 模型训练细节
4.1 模型
- LLaVANext:7B,13B,34B
- Pooling layer:16 frame,pooling shape:16x12x12xd
- batchsize:128
- learning rate:2e-5(cosine scheduler,warmup ratio:0.03)
4.2 数据
-
Training data: VideoChat2,783k instructional tuning data
- 27k conversation videos:VideoChat & Video-ChatGPT
- 80k classification:Kinectics & SthSthV2
- 450k captioned data:Webvid & YouCook2 & TextVR & VideoChat
- 117k reasoning data: NextQA & CLEVRER
- 109k annotated questioning answering data:Webvid & TGIF & Egot4D
-
Evaluation
- ChatGPT-3.5-turbo-0125
- MSVD-QA
- MSRVTT-QA
- ActivityNet-QA
- TGIF-QA
- VGP(VideoChatGPT):Lora:4
- MVBench:Lora:20
- ChatGPT-3.5-turbo-0125
5 指标情况
5.1 MVBench
5.2 Zero-shot VideoQA & Video-ChatGPT
这篇关于【大模型系列】PLLaVA(2024.04)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!