【大模型系列】PLLaVA(2024.04)

本文主要是介绍【大模型系列】PLLaVA(2024.04)，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

在这里插入图片描述

Paper：https://arxiv.org/pdf/2404.16994v2
Github：https://github.com/magic-research/PLLaVA
Author：Liu Xu et al., 新加坡国立，纽约大学，字节跳动

文章目录

1 PLLaVA总结(省流版)
2 Motivation
3 网络结构
4 模型训练细节
- 4.1 模型
- 4.2 数据
5 指标情况
- 5.1 MVBench
- 5.2 Zero-shot VideoQA & Video-ChatGPT

1 PLLaVA总结(省流版)

PLLaVA是由新加坡国立、纽约大学和字节跳动的研究人员提出的一种**视频问答(VideoQA)**方法，其论文研究的核心是video feature的池化策略，研究结果表明：在空间维度上进行池化会产生有益的效果，而在时间维度上进行池化则会产生性能下降。

2 Motivation

作者研究发现：直接使用多个视频帧作为输入去finetune pre-trained image-language models会导致性能饱和甚至下降；针对n-frame和VideoChatGPT进行了研究，由于内存限制，前者引入少量帧，后者通过池化策略压缩了100帧，但是这两个方法都会遇到data scaling的问题，即数据增多，但是效果提升不明显甚至下降。

将长视频输入到MLLM时，temproal information和计算限制都是必须要考虑的问题，Pooling是满足上述2点的最直观和简单方法。前面的两个方法可能源自于帧信息不足和对帧特征的不当处理。

因此文章使用了一种在时间维度上的池化策略，来平滑时间维度上的特征分布Pooling LLaVA(PLLaVA)。

3 网络结构

在这里插入图片描述
模型在LLaVANext：7B，13B，34B上进行微调

视频首先经过ViT/L和MM projector得到visual features(T, w, h, d)
visual feature通过adaptative average pooling，有效减少时空维度，得到(T’, w’, h’, d’)
再将其flatten，再与question embedding拼接在一起作为LLM的输入
LLM通过LoRA技术微调

4 模型训练细节

4.1 模型

LLaVANext：7B，13B，34B
Pooling layer：16 frame，pooling shape：16x12x12xd
batchsize：128
learning rate：2e-5（cosine scheduler，warmup ratio：0.03）

4.2 数据

Training data： VideoChat2，783k instructional tuning data
- 27k conversation videos：VideoChat & Video-ChatGPT
- 80k classification：Kinectics & SthSthV2
- 450k captioned data：Webvid & YouCook2 & TextVR & VideoChat
- 117k reasoning data： NextQA & CLEVRER
- 109k annotated questioning answering data：Webvid & TGIF & Egot4D
Evaluation
- ChatGPT-3.5-turbo-0125
  - MSVD-QA
  - MSRVTT-QA
  - ActivityNet-QA
  - TGIF-QA
- VGP（VideoChatGPT）：Lora：4
- MVBench：Lora：20