CV每日论文--2024.5.10

2024-05-14 09:36
文章标签 cv 每日 论文 2024.5

本文主要是介绍CV每日论文--2024.5.10,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、Attention-Driven Training-Free Efficiency Enhancement of Diffusion Models

中文标题:扩散模型的注意力驱动的训练免费效率增强

简介:扩散模型在生成高质量和多样化图像方面取得了出色的表现,但其卓越性能是以昂贵的架构设计为代价的,特别是广泛使用注意力模块。现有的工作主要通过重新训练的方式来提高扩散模型的效率,但这种方法计算开销大,可扩展性也较差。

为此,我们提出了一种基于注意力驱动的无训练高效扩散模型(AT-EDM)框架。该框架利用注意力图在运行时修剪冗余标记,无需任何重新训练。具体而言,我们开发了一种新的排名算法"广义加权页面排名(G-WPR)"来识别冗余标记,并提出了一种基于相似性的恢复方法来恢复卷积操作的标记。此外,我们还提出了一种"去噪步骤感知修剪(DSAP)"方法,以调整不同去噪步骤之间的修剪预算,以获得更好的生成质量。

广泛的评估结果表明,AT-EDM在提高效率方面表现出色,例如,与Stable Diffusion XL相比,可节省38.8%的FLOPs,并提高了1.53倍的速度,同时保持了与完整模型几乎相同的FID和CLIP分数。项目网页:https://atedm.github.io。

2、Imagine Flash: Accelerating Emu Diffusion Models with Backward Distillation

中文标题:Imagine Flash:利用反向蒸馏加速emu扩散模型

简介:扩散模型是一种强大的生成框架,但在推理时需要大量计算资源,这是一个主要挑战。现有的加速方法往往会损害生成图像的质量,或在极低步长的情况下无法良好工作。

在这项研究中,作者提出了一种新的蒸馏框架,目标是通过仅使用1-3个步骤就能实现高保真度和多样性的样本生成。这个方法包括三个关键组成部分:

反向蒸馏:通过在模型自身的反向轨迹上校准学生模型,来缓解训练-推理的差异。

移位重构损失:根据当前时间步动态调整知识转移,以提高生成的准确性。

噪声校正:在推理时采用的一种技术,通过解决噪声预测中的奇异性,来增强生成样本的质量。

作者通过大量实验证明,该方法在定量指标和人类评估方面都优于现有的竞争方法。值得一提的是,仅使用3个去噪步骤就能达到与教师模型相当的性能,实现了高效的高质量样本生成。

3、Picking watermarks from noise (PWFN): an improved robust watermarking model against intensive distortions

中文标题:从噪音中提取水印(PWFN):一种改进的抗强干扰水印模型

简介:数字水印技术能够将秘密信息嵌入图像中,而人眼是无法察觉这种改变的。为了提高模型的抗干扰能力,许多基于深度学习的数字水印方法使用了编码器-解码器架构,并向噪声层添加不同类型的噪声。解码器则从受损的图像中提取水印信息。但这种方法只能抵御较弱的噪声攻击。

为了提高算法对强噪声的鲁棒性,本文提出在噪声层和解码器之间引入去噪模块,以减少噪声干扰并恢复部分丢失的信息。此外,本文还引入了SE模块,在像素和通道维度融合数字水印信息,从而提高编码器的性能。

实验结果表明,本文提出的方法不仅与现有模型相当,在不同强度噪声下也优于最先进的方法。消融实验也验证了所提出模块的有效性。

总的来说,这项研究提出了一种新颖的数字水印方法,在抗噪声干扰方面显示出良好的性能。

这篇关于CV每日论文--2024.5.10的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/988405

相关文章

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

【每日一题】LeetCode 2181.合并零之间的节点(链表、模拟)

【每日一题】LeetCode 2181.合并零之间的节点(链表、模拟) 题目描述 给定一个链表,链表中的每个节点代表一个整数。链表中的整数由 0 分隔开,表示不同的区间。链表的开始和结束节点的值都为 0。任务是将每两个相邻的 0 之间的所有节点合并成一个节点,新节点的值为原区间内所有节点值的和。合并后,需要移除所有的 0,并返回修改后的链表头节点。 思路分析 初始化:创建一个虚拟头节点

每日一题|牛客竞赛|四舍五入|字符串+贪心+模拟

每日一题|四舍五入 四舍五入 心有猛虎,细嗅蔷薇。你好朋友,这里是锅巴的C\C++学习笔记,常言道,不积跬步无以至千里,希望有朝一日我们积累的滴水可以击穿顽石。 四舍五入 题目: 牛牛发明了一种新的四舍五入应用于整数,对个位四舍五入,规则如下 12345->12350 12399->12400 输入描述: 输入一个整数n(0<=n<=109 ) 输出描述: 输出一个整数

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

每日一练7:简写单词(含链接)

1.链接 简写单词_牛客题霸_牛客网 2.题目 3.代码1(错误经验) #include <iostream>#include <string>using namespace std;int main() {string s;string ret;int count = 0;while(cin >> s)for(auto a : s){if(count == 0){if( a <=

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

【每日刷题】Day113

【每日刷题】Day113 🥕个人主页:开敲🍉 🔥所属专栏:每日刷题🍍 🌼文章目录🌼 1. 91. 解码方法 - 力扣(LeetCode) 2. LCR 098. 不同路径 - 力扣(LeetCode) 3. 63. 不同路径 II - 力扣(LeetCode) 1. 91. 解码方法 - 力扣(LeetCode) //思路:动态规划。 cl