EVA-CLIP: Improved Training Techniques for CLIP at Scale论文解读

本文主要是介绍EVA-CLIP: Improved Training Techniques for CLIP at Scale论文解读，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

前言
一、摘要
二、引言
三、贡献
四、模型方法
五、论文链接
总结

前言

最近，我一直在搞多模态大模型相关工作，也深知CLIP结构重要性，而EVA-CLIP论文是在CLIP模型基础上进行了一系列trick，实现优越CLIP模型的方法，恰巧该EVA-CLIP也被CogVLM模型作为图像特征提取。为此，我将在本博客对EVA-CLIP论文进行解读。

一、摘要

对比图形文本预训练模型，简称CLIP，因其在多个场景潜力受到很多人关注。在这篇文章，我们提出一系列EVA-CLIP模型，显著提高CLIP训练性能与效果。我们方法包含新的学习表征、优化器和增强，使EVA-CLIP实现更高性能，与先前相同参数下的CLIP模型相比，且更少训练成本。明显的，我们最大5B参数模型在9B课件样本实现82%zero-shot top-1精度在ImageNet-1K val数据上。更小430million参数和6B可见样本在ImageNet-1K val数据上实现80.4%zero-shot top-1精度。为了促进开放存取和开放研究，我们向社区发布了完整的EVA-CLIP代码。

在这里插入图片描述

二、引言

CLIP模型是一个很强的视觉语言基准模型，通过图像文本对比学习在大规模数据上预训练学习丰富视觉特征表达。CLIP模型显示了稳定的zero-shot迁移，能增强木多模态和单模态视觉任务，列如AI生成应用包含[41,20,32,45].尽管CLIP有很重要意义，但CLIP模型因其高计算成本和训练不稳定问题构成一个挑战。

在这篇文章，我们提出EVA-CLIP模型，一系列模型提供灵活、有效解决CLIP训练问题。我们方法包含一系列技术，能减少训练成本，使其稳定训练和提高泛化性能，包含CLIP预训练初始化EVA[20,19]方法，LAMB[52]优化器方法，随机drop 输入tokens[33]方法，和加速trick叫flash attention[15]方法。在这些技术下，我们能极大稳定CLIP模型训练，减少计算成本和改善性能。之后描述就是摘要实验结果。