3月12日 工作记录 DeepSeek-VL阅读笔记

2024-03-13 04:36

本文主要是介绍3月12日 工作记录 DeepSeek-VL阅读笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

昨天考完试,晚上把那个讨人厌的项目做了阶段结果给合作者展示去了,然后就看到deepseek发布了vision language的技术报告,于是打算今天上午看看。

DeepSeek VL

很多内容直接翻译自其 DeepSeek-VL,下面的我们指的的是deepseek vl的作者。

数据构建

预训练数据

我们努力确保我们的数据是多样化的,可扩展的,并广泛覆盖现实世界的场景,包括web截图,pdf, OCR,图表和基于知识的内容(专家知识,教科书),旨在全面表示实际环境。

此外,我们从真实用户场景中创建用例分类法,并相应地构建指令调优数据集。使用该数据集进行的微调实质上改善了模型在实际应用中的用户体验。
在这里插入图片描述

  • Interleaved image-text:交错的图像-文本数据使模型具有更好的上下文处理能力学习多模态输入,我们利用了三个公共数据集MMC4 (Zhu等人,2024)、Wiki (Burns等人,2023)、Wikihow (Yang等人,2021)和Epub教科书。
  • Image capture:图像说明数据来自三个高质量的图像-文本配对数据集:Capsfusion (Yu等人,2023a)、TaiSu (Liu等人,2022b)和Detailed caption (echo840, 2024)。表格和图表数据使模型能够学习通用表格和图表图像理解的能力。它包含了各种各样的公共数据源,包括Chart2text(Kantharaj 等人,2022)、Geo170K(Gao 等人,2023)、Unichart(Masry 等人,2023)、Ureader (Ye et al., 2023)、M-paper (Hu et al., 2023)、ScienceQA (Lu et al., 2022b)、ScreenQA (Hsiao et al., 2022)、SciGraphQA-295K (Li and Tajbakhsh, 2023)、Paper2figure100k(Rodriguez 等人,2023)、Widget Captioning(Li 等人,2020)、Screen2words(Wang 等人,2021)和 Refexp(Mao 等人,2016)。
  • Web Code:Web代码数据赋予模型从图形界面或可视化图重构代码的能力。利用Websight (HuggingFaceM4, 2024)进行UI逆渲染,我们采用了类似于MATCHA (Liu et al., 2022a)用于视觉图逆渲染的策略。这涉及处理来自Stack数据集的大约146万Jupyter笔记本(Kocetkov et al., 2023)。通过提取这些笔记本并整理所有图表及其对应的前面代码段,我们成功地策划了一个包含200万对图像和代码的集合。为了获得更好的数据质量,我们过滤了110万个实例,每个实例由单个图像加上至少5行代码组成,以构成我们的主要训练数据集。
  • Document Optical Character Recognition (OCR):文档光学字符识别(OCR)数据有助于在文档级别识别光学字符,即使在具有挑战性的现实场景中也是如此。据我们所知,目前还没有公开可用的包含英文和中文文档的大规模数据集。尽管存在可公开访问的小规模数据集Latex-OCR (Blecher, 2024),但我们还构建了一个全面的英文和中文OCR数据集。它由两部分组成:1):arXiv文章:我们从140万篇arXiv文章中收集源代码并编译pdf。利用Nougat(Blecher et al., 2023)的预处理工具,我们将这些文章渲染成成对的图像和文本;2):电子书和教育材料:我们从Anna’s Archive(Anna’s Archive,2024)中清理了860K英文和180K中文电子书,以及数百万K-12教育考试问题。随后,我们使用HTML渲染工具(Kulkarni和Truelsen)将这些具有不同模板的HTML文件转换为成对的图像和文本格式。
  • Scene text OCR :场景文本OCR数据增强了模型识别和从图像中提取文本的能力,在这些图像中,文本与环境融为一体。该数据集由多个公共数据集组成,包括ArT (Chng et al., 2019)、MLT-17 (Nayef et al., 2017)、LSVT (Sun et al., 2019)、UberText (Zhang et al., 2017)、Coco-text (Veit et al., 2016)、RCTW-17 (Shi et al., 2017)、ReCTS (Zhang et al., 2019)、TextOCR (Singh et al., 2021)、OpenVINO (Krylov et al., 2021)和HierText (Long et al., 2022)。
  • Text-only corpus: 纯文本语料库用于保持以语言为中心的任务的熟练程度。在本研究中,我们使用了与DeepSeek-LLM (DeepSeek-AI, 2024)相同的文本语料库。

有监督Fine-tuning数据

我们研究中使用的监督式调优数据集包含多种多模态和语言数据源,包括知名的开源共享gpt4v数据集,如ShareGPT4V (Chen等人,2023)、LAION- gptv (LAION, 2023)、lvisi - instruct4v (Wang等人,2023a)、textOCR-GPT4V (Carter, 2024)、llava16 - gpt4v (Liu等人,2024a)和IconQA (Lu等人,2021)。此外,我们结合了从预训练数据集中提取的部分表格和图表数据,如Ureader (Ye等人,2023)、ScreenQA (Hsiao等人,2022)、Geo170K (Gao等人,2023)和ScienceQA (Lu等人,2022b)。此外,我们整合了从Screen-to-code (Abi, 2024)任务中获得的UI Code数据集。为了提高我们多模态SFT数据的质量,我们还整理了一部分高质量的内部多模态SFT数据,其中一些数据是中文的。我们的内部指令调优数据集经过精心设计,以反映现实世界的使用场景,并涵盖广泛的任务。我们首先从各种在线来源收集GPT-4V和Gemini的各种真实测试用例。然后对这些测试用例进行仔细分析并组织成一个全面的分类法,该分类法包含识别、转换、分析、推理、评估和安全等多个类别,详见表3。这个结构化的分类法作为为每个测试图像选择代表性提示的指南,确保我们的指令调优数据集既实用又与现实世界的应用相关。此外,该分类法还用于构建平衡和全面的评估数据集,这使我们能够有效地评估模型在不同任务和类别中的性能。通过遵循这种系统化的方法,我们确保我们内部多模态SFT数据所涵盖的类别与分类法和实际使用场景的代表性很好地保持一致。

DeepSeek自建数据

在这里插入图片描述

模型架构

模型架构看代码就好了:https://github.com/deepseek-ai/DeepSeek-VL/tree/main/deepseek_vl/models

考虑到效率和大多数现实世界场景的需求,DeepSeek-VL集成了一个混合视觉编码器,可以在固定的令牌预算内有效地处理高分辨率图像(1024 x 1024),同时保持相对较低的计算开销。这种设计选择确保了模型在各种视觉任务中捕获关键语义和详细信息的能力。训练策略:我们假设一个熟练的视觉语言模型首先应该拥有强大的语言能力。为了确保在预训练期间保留LLM能力,我们研究了一种有效的VL预训练策略,从一开始就整合LLM训练,并仔细管理视觉和语言模式之间观察到的竞争动态。从关注文本开始,我们逐渐调整比例,以促进两种模式的平衡整合。DeepSeek-VL系列(13 b和7B型号)在实际应用中作为视觉语言聊天机器人展示了卓越的用户体验,在相同的模型尺寸下,在广泛的视觉语言基准测试中实现了最先进或具有竞争力的性能,同时在以语言为中心的基准测试中保持了稳健的性能。我们将13 b模型和7B模型都对外开放,在此基础上促进创新。

训练方法

总体分析

三步训练,如下图所示。

在这里插入图片描述
我们可以对比一下qwen-vl的训练pipeline:
在这里插入图片描述
DeepSeek的训练方法和LLaVA相比多了Stage3,和qwen-vl相比在每个stage冻结和训练的模块各有选择。

具体DeepSeek的训练过程:

  1. 首先训练vision language的adaptor,insight:adaptor的训练参数少,不适用scale law,所以使用适量的数据训练就好,过多反而有害。
  2. 进行stage 2训练的原因:

最初,我们尝试用多模态数据直接训练LLM。然而,我们发现,虽然多模态性能的指标逐渐提高,但语言指标却出现了明显而严重的下降,如图4所示(multimodal: language -100%:0%)。这强调了在LLM的基础上直接进行多模态预训练的内在挑战,揭示了提高多模态能力和保持语言熟练度之间的关键权衡。
我们认为这一现象主要源于两个因素:第一,大多数多模态语料库过于简单,与语言数据的复杂性和分布存在显著差异。其次,在多模态和语言模态之间似乎存在一种竞争动态,导致了LLM中语言能力的灾难性遗忘。

  • DeepSeek-VL训练中的一个核心实验观察是,在VLM训练中保证原本大模型的能力需要70%:30%的多模态、文本数据投入
    在这里插入图片描述
  1. 监督微调在这个阶段,我们通过基于指令的微调对预训练的DeepSeek-VL模型进行微调,以增强其遵循指令和参与对话的能力,最终创建交互式DeepSeek-VL- chat模型。

  2. DeepSeek-VL的训练参数设置
    在这里插入图片描述

这篇关于3月12日 工作记录 DeepSeek-VL阅读笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/803654

相关文章

Python UV安装、升级、卸载详细步骤记录

《PythonUV安装、升级、卸载详细步骤记录》:本文主要介绍PythonUV安装、升级、卸载的详细步骤,uv是Astral推出的下一代Python包与项目管理器,主打单一可执行文件、极致性能... 目录安装检查升级设置自动补全卸载UV 命令总结 官方文档详见:https://docs.astral.sh/

LiteFlow轻量级工作流引擎使用示例详解

《LiteFlow轻量级工作流引擎使用示例详解》:本文主要介绍LiteFlow是一个灵活、简洁且轻量的工作流引擎,适合用于中小型项目和微服务架构中的流程编排,本文给大家介绍LiteFlow轻量级工... 目录1. LiteFlow 主要特点2. 工作流定义方式3. LiteFlow 流程示例4. LiteF

SpringBoot集成LiteFlow实现轻量级工作流引擎的详细过程

《SpringBoot集成LiteFlow实现轻量级工作流引擎的详细过程》LiteFlow是一款专注于逻辑驱动流程编排的轻量级框架,它以组件化方式快速构建和执行业务流程,有效解耦复杂业务逻辑,下面给大... 目录一、基础概念1.1 组件(Component)1.2 规则(Rule)1.3 上下文(Conte

统一返回JsonResult踩坑的记录

《统一返回JsonResult踩坑的记录》:本文主要介绍统一返回JsonResult踩坑的记录,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录统一返回jsonResult踩坑定义了一个统一返回类在使用时,JsonResult没有get/set方法时响应总结统一返回

Go学习记录之runtime包深入解析

《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,:本文主要介绍Go学习记录之runtime包的... 目录前言:一、runtime包内容学习1、作用:① Goroutine和并发控制:② 垃圾回收:③ 栈和

java对接海康摄像头的完整步骤记录

《java对接海康摄像头的完整步骤记录》在Java中调用海康威视摄像头通常需要使用海康威视提供的SDK,下面这篇文章主要给大家介绍了关于java对接海康摄像头的完整步骤,文中通过代码介绍的非常详细,需... 目录一、开发环境准备二、实现Java调用设备接口(一)加载动态链接库(二)结构体、接口重定义1.类型

详解如何使用Python构建从数据到文档的自动化工作流

《详解如何使用Python构建从数据到文档的自动化工作流》这篇文章将通过真实工作场景拆解,为大家展示如何用Python构建自动化工作流,让工具代替人力完成这些数字苦力活,感兴趣的小伙伴可以跟随小编一起... 目录一、Excel处理:从数据搬运工到智能分析师二、PDF处理:文档工厂的智能生产线三、邮件自动化:

基于Python开发一个有趣的工作时长计算器

《基于Python开发一个有趣的工作时长计算器》随着远程办公和弹性工作制的兴起,个人及团队对于工作时长的准确统计需求日益增长,本文将使用Python和PyQt5打造一个工作时长计算器,感兴趣的小伙伴可... 目录概述功能介绍界面展示php软件使用步骤说明代码详解1.窗口初始化与布局2.工作时长计算核心逻辑3

RabbitMQ工作模式中的RPC通信模式详解

《RabbitMQ工作模式中的RPC通信模式详解》在RabbitMQ中,RPC模式通过消息队列实现远程调用功能,这篇文章给大家介绍RabbitMQ工作模式之RPC通信模式,感兴趣的朋友一起看看吧... 目录RPC通信模式概述工作流程代码案例引入依赖常量类编写客户端代码编写服务端代码RPC通信模式概述在R

apache的commons-pool2原理与使用实践记录

《apache的commons-pool2原理与使用实践记录》ApacheCommonsPool2是一个高效的对象池化框架,通过复用昂贵资源(如数据库连接、线程、网络连接)优化系统性能,这篇文章主... 目录一、核心原理与组件二、使用步骤详解(以数据库连接池为例)三、高级配置与优化四、典型应用场景五、注意事