3月12日 工作记录 DeepSeek-VL阅读笔记

2024-03-13 04:36

本文主要是介绍3月12日 工作记录 DeepSeek-VL阅读笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

昨天考完试,晚上把那个讨人厌的项目做了阶段结果给合作者展示去了,然后就看到deepseek发布了vision language的技术报告,于是打算今天上午看看。

DeepSeek VL

很多内容直接翻译自其 DeepSeek-VL,下面的我们指的的是deepseek vl的作者。

数据构建

预训练数据

我们努力确保我们的数据是多样化的,可扩展的,并广泛覆盖现实世界的场景,包括web截图,pdf, OCR,图表和基于知识的内容(专家知识,教科书),旨在全面表示实际环境。

此外,我们从真实用户场景中创建用例分类法,并相应地构建指令调优数据集。使用该数据集进行的微调实质上改善了模型在实际应用中的用户体验。
在这里插入图片描述

  • Interleaved image-text:交错的图像-文本数据使模型具有更好的上下文处理能力学习多模态输入,我们利用了三个公共数据集MMC4 (Zhu等人,2024)、Wiki (Burns等人,2023)、Wikihow (Yang等人,2021)和Epub教科书。
  • Image capture:图像说明数据来自三个高质量的图像-文本配对数据集:Capsfusion (Yu等人,2023a)、TaiSu (Liu等人,2022b)和Detailed caption (echo840, 2024)。表格和图表数据使模型能够学习通用表格和图表图像理解的能力。它包含了各种各样的公共数据源,包括Chart2text(Kantharaj 等人,2022)、Geo170K(Gao 等人,2023)、Unichart(Masry 等人,2023)、Ureader (Ye et al., 2023)、M-paper (Hu et al., 2023)、ScienceQA (Lu et al., 2022b)、ScreenQA (Hsiao et al., 2022)、SciGraphQA-295K (Li and Tajbakhsh, 2023)、Paper2figure100k(Rodriguez 等人,2023)、Widget Captioning(Li 等人,2020)、Screen2words(Wang 等人,2021)和 Refexp(Mao 等人,2016)。
  • Web Code:Web代码数据赋予模型从图形界面或可视化图重构代码的能力。利用Websight (HuggingFaceM4, 2024)进行UI逆渲染,我们采用了类似于MATCHA (Liu et al., 2022a)用于视觉图逆渲染的策略。这涉及处理来自Stack数据集的大约146万Jupyter笔记本(Kocetkov et al., 2023)。通过提取这些笔记本并整理所有图表及其对应的前面代码段,我们成功地策划了一个包含200万对图像和代码的集合。为了获得更好的数据质量,我们过滤了110万个实例,每个实例由单个图像加上至少5行代码组成,以构成我们的主要训练数据集。
  • Document Optical Character Recognition (OCR):文档光学字符识别(OCR)数据有助于在文档级别识别光学字符,即使在具有挑战性的现实场景中也是如此。据我们所知,目前还没有公开可用的包含英文和中文文档的大规模数据集。尽管存在可公开访问的小规模数据集Latex-OCR (Blecher, 2024),但我们还构建了一个全面的英文和中文OCR数据集。它由两部分组成:1):arXiv文章:我们从140万篇arXiv文章中收集源代码并编译pdf。利用Nougat(Blecher et al., 2023)的预处理工具,我们将这些文章渲染成成对的图像和文本;2):电子书和教育材料:我们从Anna’s Archive(Anna’s Archive,2024)中清理了860K英文和180K中文电子书,以及数百万K-12教育考试问题。随后,我们使用HTML渲染工具(Kulkarni和Truelsen)将这些具有不同模板的HTML文件转换为成对的图像和文本格式。
  • Scene text OCR :场景文本OCR数据增强了模型识别和从图像中提取文本的能力,在这些图像中,文本与环境融为一体。该数据集由多个公共数据集组成,包括ArT (Chng et al., 2019)、MLT-17 (Nayef et al., 2017)、LSVT (Sun et al., 2019)、UberText (Zhang et al., 2017)、Coco-text (Veit et al., 2016)、RCTW-17 (Shi et al., 2017)、ReCTS (Zhang et al., 2019)、TextOCR (Singh et al., 2021)、OpenVINO (Krylov et al., 2021)和HierText (Long et al., 2022)。
  • Text-only corpus: 纯文本语料库用于保持以语言为中心的任务的熟练程度。在本研究中,我们使用了与DeepSeek-LLM (DeepSeek-AI, 2024)相同的文本语料库。

有监督Fine-tuning数据

我们研究中使用的监督式调优数据集包含多种多模态和语言数据源,包括知名的开源共享gpt4v数据集,如ShareGPT4V (Chen等人,2023)、LAION- gptv (LAION, 2023)、lvisi - instruct4v (Wang等人,2023a)、textOCR-GPT4V (Carter, 2024)、llava16 - gpt4v (Liu等人,2024a)和IconQA (Lu等人,2021)。此外,我们结合了从预训练数据集中提取的部分表格和图表数据,如Ureader (Ye等人,2023)、ScreenQA (Hsiao等人,2022)、Geo170K (Gao等人,2023)和ScienceQA (Lu等人,2022b)。此外,我们整合了从Screen-to-code (Abi, 2024)任务中获得的UI Code数据集。为了提高我们多模态SFT数据的质量,我们还整理了一部分高质量的内部多模态SFT数据,其中一些数据是中文的。我们的内部指令调优数据集经过精心设计,以反映现实世界的使用场景,并涵盖广泛的任务。我们首先从各种在线来源收集GPT-4V和Gemini的各种真实测试用例。然后对这些测试用例进行仔细分析并组织成一个全面的分类法,该分类法包含识别、转换、分析、推理、评估和安全等多个类别,详见表3。这个结构化的分类法作为为每个测试图像选择代表性提示的指南,确保我们的指令调优数据集既实用又与现实世界的应用相关。此外,该分类法还用于构建平衡和全面的评估数据集,这使我们能够有效地评估模型在不同任务和类别中的性能。通过遵循这种系统化的方法,我们确保我们内部多模态SFT数据所涵盖的类别与分类法和实际使用场景的代表性很好地保持一致。

DeepSeek自建数据

在这里插入图片描述

模型架构

模型架构看代码就好了:https://github.com/deepseek-ai/DeepSeek-VL/tree/main/deepseek_vl/models

考虑到效率和大多数现实世界场景的需求,DeepSeek-VL集成了一个混合视觉编码器,可以在固定的令牌预算内有效地处理高分辨率图像(1024 x 1024),同时保持相对较低的计算开销。这种设计选择确保了模型在各种视觉任务中捕获关键语义和详细信息的能力。训练策略:我们假设一个熟练的视觉语言模型首先应该拥有强大的语言能力。为了确保在预训练期间保留LLM能力,我们研究了一种有效的VL预训练策略,从一开始就整合LLM训练,并仔细管理视觉和语言模式之间观察到的竞争动态。从关注文本开始,我们逐渐调整比例,以促进两种模式的平衡整合。DeepSeek-VL系列(13 b和7B型号)在实际应用中作为视觉语言聊天机器人展示了卓越的用户体验,在相同的模型尺寸下,在广泛的视觉语言基准测试中实现了最先进或具有竞争力的性能,同时在以语言为中心的基准测试中保持了稳健的性能。我们将13 b模型和7B模型都对外开放,在此基础上促进创新。

训练方法

总体分析

三步训练,如下图所示。

在这里插入图片描述
我们可以对比一下qwen-vl的训练pipeline:
在这里插入图片描述
DeepSeek的训练方法和LLaVA相比多了Stage3,和qwen-vl相比在每个stage冻结和训练的模块各有选择。

具体DeepSeek的训练过程:

  1. 首先训练vision language的adaptor,insight:adaptor的训练参数少,不适用scale law,所以使用适量的数据训练就好,过多反而有害。
  2. 进行stage 2训练的原因:

最初,我们尝试用多模态数据直接训练LLM。然而,我们发现,虽然多模态性能的指标逐渐提高,但语言指标却出现了明显而严重的下降,如图4所示(multimodal: language -100%:0%)。这强调了在LLM的基础上直接进行多模态预训练的内在挑战,揭示了提高多模态能力和保持语言熟练度之间的关键权衡。
我们认为这一现象主要源于两个因素:第一,大多数多模态语料库过于简单,与语言数据的复杂性和分布存在显著差异。其次,在多模态和语言模态之间似乎存在一种竞争动态,导致了LLM中语言能力的灾难性遗忘。

  • DeepSeek-VL训练中的一个核心实验观察是,在VLM训练中保证原本大模型的能力需要70%:30%的多模态、文本数据投入
    在这里插入图片描述
  1. 监督微调在这个阶段,我们通过基于指令的微调对预训练的DeepSeek-VL模型进行微调,以增强其遵循指令和参与对话的能力,最终创建交互式DeepSeek-VL- chat模型。

  2. DeepSeek-VL的训练参数设置
    在这里插入图片描述

这篇关于3月12日 工作记录 DeepSeek-VL阅读笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/803654

相关文章

Java调用DeepSeek API的8个高频坑与解决方法

《Java调用DeepSeekAPI的8个高频坑与解决方法》现在大模型开发特别火,DeepSeek因为中文理解好、反应快、还便宜,不少Java开发者都用它,本文整理了最常踩的8个坑,希望对... 目录引言一、坑 1:Token 过期未处理,鉴权异常引发服务中断问题本质典型错误代码解决方案:实现 Token

Python中4大日志记录库比较的终极PK

《Python中4大日志记录库比较的终极PK》日志记录框架是一种工具,可帮助您标准化应用程序中的日志记录过程,:本文主要介绍Python中4大日志记录库比较的相关资料,文中通过代码介绍的非常详细,... 目录一、logging库1、优点2、缺点二、LogAid库三、Loguru库四、Structlogphp

C#实现将Excel工作表拆分为多个窗格

《C#实现将Excel工作表拆分为多个窗格》在日常工作中,我们经常需要处理包含大量数据的Excel文件,本文将深入探讨如何在C#中利用强大的Spire.XLSfor.NET自动化实现Excel工作表的... 目录为什么需要拆分 Excel 窗格借助 Spire.XLS for .NET 实现冻结窗格(Fro

C#借助Spire.XLS for .NET实现Excel工作表自动化样式设置

《C#借助Spire.XLSfor.NET实现Excel工作表自动化样式设置》作为C#开发者,我们经常需要处理Excel文件,本文将深入探讨如何利用C#代码,借助强大的Spire.XLSfor.N... 目录为什么需要自动化工作表样式使用 Spire.XLS for .NET 实现工作表整体样式设置样式配置

C#利用Free Spire.XLS for .NET复制Excel工作表

《C#利用FreeSpire.XLSfor.NET复制Excel工作表》在日常的.NET开发中,我们经常需要操作Excel文件,本文将详细介绍C#如何使用FreeSpire.XLSfor.NET... 目录1. 环境准备2. 核心功能3. android示例代码3.1 在同一工作簿内复制工作表3.2 在不同

docker编写java的jar完整步骤记录

《docker编写java的jar完整步骤记录》在平常的开发工作中,我们经常需要部署项目,开发测试完成后,最关键的一步就是部署,:本文主要介绍docker编写java的jar的相关资料,文中通过代... 目录all-docker/生成Docker打包部署文件配置服务A的Dockerfile (a/Docke

MySQL使用EXISTS检查记录是否存在的详细过程

《MySQL使用EXISTS检查记录是否存在的详细过程》EXISTS是SQL中用于检查子查询是否返回至少一条记录的运算符,它通常用于测试是否存在满足特定条件的记录,从而在主查询中进行相应操作,本文给大... 目录基本语法示例数据库和表结构1. 使用 EXISTS 在 SELECT 语句中2. 使用 EXIS

深入浅出Spring中的@Autowired自动注入的工作原理及实践应用

《深入浅出Spring中的@Autowired自动注入的工作原理及实践应用》在Spring框架的学习旅程中,@Autowired无疑是一个高频出现却又让初学者头疼的注解,它看似简单,却蕴含着Sprin... 目录深入浅出Spring中的@Autowired:自动注入的奥秘什么是依赖注入?@Autowired

Python中的filter() 函数的工作原理及应用技巧

《Python中的filter()函数的工作原理及应用技巧》Python的filter()函数用于筛选序列元素,返回迭代器,适合函数式编程,相比列表推导式,内存更优,尤其适用于大数据集,结合lamb... 目录前言一、基本概念基本语法二、使用方式1. 使用 lambda 函数2. 使用普通函数3. 使用 N

Python学习笔记之getattr和hasattr用法示例详解

《Python学习笔记之getattr和hasattr用法示例详解》在Python中,hasattr()、getattr()和setattr()是一组内置函数,用于对对象的属性进行操作和查询,这篇文章... 目录1.getattr用法详解1.1 基本作用1.2 示例1.3 原理2.hasattr用法详解2.