【提示学习论文】ProGrad:Prompt-aligned Gradient for Prompt Tuning论文原理

2024-04-07 23:52

本文主要是介绍【提示学习论文】ProGrad:Prompt-aligned Gradient for Prompt Tuning论文原理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Prompt-aligned Gradient for Prompt Tuning(CORR2022 / ICCV2023)

1 Motivation

在这里插入图片描述

在这里插入图片描述

  • 经过CoOp微调过的prompt会导致模型更关注背景而不是前景对象,对于分类任务不利

2 Contribution

在这里插入图片描述
提出了一种基于prompt对齐的梯度的引导方法(ProGrad),来应对prompt学习中添加的不正确偏置的问题。在tuning的过程中进行一种正则化,来确保这一步的tuning不和原本的知识(zero-shot CLIP)产生冲突。

  • 一般方向(general direction):zero-shot CLIP
  • 域特殊方向(domain-specific direction):CoOp计算得出
    • 垂直向量 G ⊥ G_⊥ G
    • 平行向量 G ∥ G_∥ G

3 具体方法

由CoOp进行学习的域特殊方向,加强其在当前数据下的精度的优化方向,但是这可能导致过拟合。用一个一般普通的prompt和zero-shot CLIP的logits计算一个KL散度,这个KL散度回传的梯度作为一般方向。

3.1 交叉熵损失

在这里插入图片描述
L c e L_{ce} Lce:模型预测 p ( t i ∣ x ) p(t_i|x) p(tix)真实值 y y y的交叉熵损失

3.2 KL散度

在这里插入图片描述

L k l L_{kl} Lkl:模型预测 p ( t i ∣ x ) p(t_i|x) p(tix)zero-shot CLIP预测 p z s ( w i ∣ x ) p_{zs}(w_i|x) pzs(wix)的KL散度

3.3 梯度

  • L c e L_{ce} Lce的梯度表示为 G d = ∇ v L c e ( v ) G_d =∇_vL_{ce}(v) Gd=vLce(v)
  • L k l L_{kl} Lkl的梯度表示为 G g = ∇ v L k l ( v ) G_g =∇_vL_{kl}(v) Gg=vLkl(v)

在这里插入图片描述

G d G_d Gd G g G_g Gg的关系:

  • 夹角小于90°:说明下游知识优化方向与一般知识不冲突,此时安全地更新梯度 G p r o g r a d G_{prograd} Gprograd作为 G d G_d Gd
  • 夹角大于90°:说明下游知识优化方向与一般知识冲突,此时,将 G d G_d Gd投影 G g G_g Gg正交方向,避免增加 L k l L_{kl} Lkl

3.4 ProGrad策略公式

在这里插入图片描述
在本文CoOp中,我们没有使用 G d G_d Gd来更新上下文向量,而是使用 G p r o g r a d G_{prograd} Gprograd来优化,可以避免过拟合:

  • λ=1:将 G d G_d Gd投影到 G g G_g Gg的正交方向
  • λ=0:使prograd退化为CoOp

3.5 总体流程

在这里插入图片描述

  • 可学习上下文和类别输入文本编码器,图像输入图像编码器
  • 将文本特征与图像特征计算相似概率,得到 p p p
  • p p p y y y计算 C E L o s s CE Loss CELoss,得到 G d G_d Gd
  • p p p p z s p_{zs} pzs计算 K L L o s s KL Loss KLLoss,得到 G g G_g Gg
  • G d G_d Gd G g G_g Gg反传回去,使用 G p r o g r a d G_{prograd} Gprograd更新可学习参数

这篇关于【提示学习论文】ProGrad:Prompt-aligned Gradient for Prompt Tuning论文原理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/884021

相关文章

Springboot项目启动失败提示找不到dao类的解决

《Springboot项目启动失败提示找不到dao类的解决》SpringBoot启动失败,因ProductServiceImpl未正确注入ProductDao,原因:Dao未注册为Bean,解决:在启... 目录错误描述原因解决方法总结***************************APPLICA编

Spring Security 单点登录与自动登录机制的实现原理

《SpringSecurity单点登录与自动登录机制的实现原理》本文探讨SpringSecurity实现单点登录(SSO)与自动登录机制,涵盖JWT跨系统认证、RememberMe持久化Token... 目录一、核心概念解析1.1 单点登录(SSO)1.2 自动登录(Remember Me)二、代码分析三、

电脑提示d3dx11_43.dll缺失怎么办? DLL文件丢失的多种修复教程

《电脑提示d3dx11_43.dll缺失怎么办?DLL文件丢失的多种修复教程》在使用电脑玩游戏或运行某些图形处理软件时,有时会遇到系统提示“d3dx11_43.dll缺失”的错误,下面我们就来分享超... 在计算机使用过程中,我们可能会遇到一些错误提示,其中之一就是缺失某个dll文件。其中,d3dx11_4

游戏闪退弹窗提示找不到storm.dll文件怎么办? Stormdll文件损坏修复技巧

《游戏闪退弹窗提示找不到storm.dll文件怎么办?Stormdll文件损坏修复技巧》DLL文件丢失或损坏会导致软件无法正常运行,例如我们在电脑上运行软件或游戏时会得到以下提示:storm.dll... 很多玩家在打开游戏时,突然弹出“找不到storm.dll文件”的提示框,随后游戏直接闪退,这通常是由于

在MySQL中实现冷热数据分离的方法及使用场景底层原理解析

《在MySQL中实现冷热数据分离的方法及使用场景底层原理解析》MySQL冷热数据分离通过分表/分区策略、数据归档和索引优化,将频繁访问的热数据与冷数据分开存储,提升查询效率并降低存储成本,适用于高并发... 目录实现冷热数据分离1. 分表策略2. 使用分区表3. 数据归档与迁移在mysql中实现冷热数据分

从原理到实战深入理解Java 断言assert

《从原理到实战深入理解Java断言assert》本文深入解析Java断言机制,涵盖语法、工作原理、启用方式及与异常的区别,推荐用于开发阶段的条件检查与状态验证,并强调生产环境应使用参数验证工具类替代... 目录深入理解 Java 断言(assert):从原理到实战引言:为什么需要断言?一、断言基础1.1 语

MySQL中的表连接原理分析

《MySQL中的表连接原理分析》:本文主要介绍MySQL中的表连接原理分析,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、背景2、环境3、表连接原理【1】驱动表和被驱动表【2】内连接【3】外连接【4编程】嵌套循环连接【5】join buffer4、总结1、背景

深度解析Spring AOP @Aspect 原理、实战与最佳实践教程

《深度解析SpringAOP@Aspect原理、实战与最佳实践教程》文章系统讲解了SpringAOP核心概念、实现方式及原理,涵盖横切关注点分离、代理机制(JDK/CGLIB)、切入点类型、性能... 目录1. @ASPect 核心概念1.1 AOP 编程范式1.2 @Aspect 关键特性2. 完整代码实

IDEA Maven提示:未解析的依赖项的问题及解决

《IDEAMaven提示:未解析的依赖项的问题及解决》:本文主要介绍IDEAMaven提示:未解析的依赖项的问题及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝... 目录IDEA Maven提示:未解析的依编程赖项例如总结IDEA Maven提示:未解析的依赖项例如

Java Stream的distinct去重原理分析

《JavaStream的distinct去重原理分析》Javastream中的distinct方法用于去除流中的重复元素,它返回一个包含过滤后唯一元素的新流,该方法会根据元素的hashcode和eq... 目录一、distinct 的基础用法与核心特性二、distinct 的底层实现原理1. 顺序流中的去重