CV每日论文--2024.4.26

2024-04-26 18:36
文章标签 cv 每日 论文 26 2024.4

本文主要是介绍CV每日论文--2024.4.26,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、Adaptive Mixed-Scale Feature Fusion Network for Blind AI-Generated Image Quality Assessment

中文标题:自适应混合尺度特征融合网络用于盲目 AI 生成图像质量评估

简介:随着文本到图像和图像到图像生成模型的不断成熟,人工智能生成的图像(AGIs)在广告、娱乐、教育、社交媒体等领域展示了巨大的应用潜力。尽管生成模型取得了显著的进展,但很少有人付出努力来设计相关的质量评估模型。本文提出了一种新的盲图像质量评估(IQA)网络,名为AMFF-Net,用于评估AGI的质量。AMFF-Net从三个维度评估AGI的质量,即“视觉质量”、“真实性”和“一致性”。具体来说,受人类视觉系统的特点启发,同时受到“视觉质量”和“真实性”都具有局部和全局特征的观察启发,AMFF-Net对图像进行了放大和缩小,并将缩放后的图像和原始大小的图像作为输入,以获得多尺度特征。之后,使用自适应特征融合(AFF)块来自适应地融合可学习权重的多尺度特征。此外,考虑到图像和提示之间的相关性,AMFF-Net比较文本编码器和图像编码器的语义特征,以评估文本到图像的对齐情况。作者在三个AGI质量评估数据库上进行了广泛的实验,结果显示,AMFF-Net比九种最先进的盲IQ方法具有更好的性能。消融实验的结果进一步证明了所提出的多尺度输入策略和AFF块的有效性。

2、CutDiffusion: A Simple, Fast, Cheap, and Strong Diffusion Extrapolation Method

中文标题:CutDiffusion:一种简单、快速、廉价且强大的扩散外推方法

简介:我们提出了CutDiffusion方法,无需进行参数调整,旨在简化和加速扩散外推过程,使其更经济实惠并提高性能。CutDiffusion遵循现有的基于块的外推方法,但将标准块扩散过程分为一个旨在进行全面结构去噪的初始阶段和一个专注于具体细节细化的后续阶段。全面的实验表明CutDiffusion具有诸多优势:(1)简单的方法构建使得高分辨率扩散过程简明易懂,无需第三方参与;(2)通过单步高分辨率扩散过程和较少的推断块,实现了快速推理速度;(3)在全面结构去噪期间进行基于块的推断,从而降低了GPU成本;(4)强大的生成性能,源于对具体细节细化的强调。

3、Re-Thinking Inverse Graphics With Large Language Models

中文标题:重新思考使用大型语言模型的逆向图形学

简介:反向图形学是计算机视觉和图形学领域的一个重要挑战,其任务是将图像转换为物理属性,以便在渲染过程中准确再现观察到的场景。要将图像分解为构成元素,如形状、颜色和材质属性,需要对环境有深入的理解。现有的方法受限于在不同领域之间推广的能力。受到大型语言模型(LLM)零样本能力的启发,我们研究了利用这些模型中编码的丰富世界知识来解决反向图形学问题的可能性。我们提出了反向图形学大型语言模型(IG-LLM),这是一个以LLM为核心的框架,可以将视觉信息解码为结构化的3D场景表示。我们引入了一个预训练的视觉编码器和一个连续的数值头,实现了端到端的训练。通过研究,我们展示了LLM在没有使用图像空间监督的情况下,通过预测下一个令牌,推动反向图形学的潜力。我们的分析为利用LLM的视觉知识进行精确空间推理提供了新的可能性。我们将发布代码和数据,以确保研究的可重复性,并推动未来研究的进行。

这篇关于CV每日论文--2024.4.26的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/938350

相关文章

Linux搭建单机MySQL8.0.26版本的操作方法

《Linux搭建单机MySQL8.0.26版本的操作方法》:本文主要介绍Linux搭建单机MySQL8.0.26版本的操作方法,本文通过图文并茂的形式给大家讲解的非常详细,感兴趣的朋友一起看看吧... 目录概述环境信息数据库服务安装步骤下载前置依赖服务下载方式一:进入官网下载,并上传到宿主机中,适合离线环境

Linux下MySQL8.0.26安装教程

《Linux下MySQL8.0.26安装教程》文章详细介绍了如何在Linux系统上安装和配置MySQL,包括下载、解压、安装依赖、启动服务、获取默认密码、设置密码、支持远程登录以及创建表,感兴趣的朋友... 目录1.找到官网下载位置1.访问mysql存档2.下载社区版3.百度网盘中2.linux安装配置1.

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

【每日一题】LeetCode 2181.合并零之间的节点(链表、模拟)

【每日一题】LeetCode 2181.合并零之间的节点(链表、模拟) 题目描述 给定一个链表,链表中的每个节点代表一个整数。链表中的整数由 0 分隔开,表示不同的区间。链表的开始和结束节点的值都为 0。任务是将每两个相邻的 0 之间的所有节点合并成一个节点,新节点的值为原区间内所有节点值的和。合并后,需要移除所有的 0,并返回修改后的链表头节点。 思路分析 初始化:创建一个虚拟头节点

每日一题|牛客竞赛|四舍五入|字符串+贪心+模拟

每日一题|四舍五入 四舍五入 心有猛虎,细嗅蔷薇。你好朋友,这里是锅巴的C\C++学习笔记,常言道,不积跬步无以至千里,希望有朝一日我们积累的滴水可以击穿顽石。 四舍五入 题目: 牛牛发明了一种新的四舍五入应用于整数,对个位四舍五入,规则如下 12345->12350 12399->12400 输入描述: 输入一个整数n(0<=n<=109 ) 输出描述: 输出一个整数

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

每日一练7:简写单词(含链接)

1.链接 简写单词_牛客题霸_牛客网 2.题目 3.代码1(错误经验) #include <iostream>#include <string>using namespace std;int main() {string s;string ret;int count = 0;while(cin >> s)for(auto a : s){if(count == 0){if( a <=