Talk | 约翰霍普金斯大学博士生魏晨: De-Diffusion-文本是不同模态的沟通桥梁

本文主要是介绍Talk | 约翰霍普金斯大学博士生魏晨: De-Diffusion-文本是不同模态的沟通桥梁,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本期为TechBeat人工智能社区557线上Talk。

北京时间12月20(周三)20:00,约翰霍普金斯大学博士生魏晨的Talk已准时在TechBeat人工智能社区开播!

她与大家分享的主题是: “De-Diffusion-文本是不同模态的沟通桥梁题,介绍了她的团队在如何通过文本(text) 构建一种强大的跨模态沟通桥梁 (cross-modal interface)上所做的研究。

Talk·信息

主题:De-Diffusion-文本是不同模的沟通桥梁

嘉宾:约翰霍普金斯大学博士生 魏晨

时间:北京时间 12月20日(周三)20:00

地点:TechBeat人工智能社区

点击下方链接,即可观看视频!

TechBeatTechBeat是荟聚全球华人AI精英的成长社区,每周上新来自顶尖大厂、明星创业公司、国际顶级高校相关专业在读博士的最新研究工作。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。icon-default.png?t=N7T8https://www.techbeat.net/talk-info?id=836

Talk·介绍

我们探讨了如何通过文本(text) 构建一种强大的跨模态沟通桥梁 (cross-modal interface)。

长期以来,人们只使用deep embeddings来连接来自不同的模态模型,如图像模型和语言模型。我们提出,如果将图像表示为文本(text)而不是deep embeddings,那么我们不仅将享受到自然语言固有的可解释性,还能构建起另一种跨模态沟通桥梁。在经典的自动编码器 (autoencoder) 结构中,我们使用一个预训练好的文生图扩散模型 (text-to-image diffusion model) 作为解码器 (decoder),从而得到输入图像的文字表征。这个文字表征全面地描述了输入图像的语义信息,从而将图像与其他模态的大模型模块化地连接起来。比如,通过与语言大模型PaLM2的有机连接,在没有任何微调和训练的情况下,我们利用一个ViT-L级别的视觉模型(600M)得到了比有着80B参数的Flamingo模型更好的小样本开放VQA能力。

Talk大纲

1、从牛油果扶手椅 (avocado armchair) 一窥图像生成式模型的泛化能力;

2、逆转文生图模型 -- 图生文的新方法;

3、文字作为不同模态的沟通桥梁:一种常被忽视的我们人类的“超”能力;

4、文字作为不同模态的沟通桥梁:用文字连接不同的文生图模型 -- 自动化的prompt engineering;

5、文字作为不同模态的沟通桥梁:用文字连接图像与语言大模型 -- 模块化设计同时带来更好的训练灵活度与更好的VQA能力

Talk·预习资料

Image

论文链接:

https://arxiv.org/abs/2311.0061

代码链接:

https://dediffusion.github.io/

Talk·提问交流

在Talk界面下的【交流区】参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

Talk·嘉宾介绍

Image

魏晨

约翰霍普金斯大学博士生

约翰霍普金斯大学计算机系在读博士生,师从Alan Yuille教授。本科毕业于北京大学计算机科学专业。研究方向为计算机视觉的自监督学习、表征学习与生成式模型。工作发表于CVPR, ICCV, ECCV, ICLR, ICML等计算机视觉与机器学习顶级会议。曾获EECS Rising Star 2023。

个人主页: 

https://www.techbeat.net/grzytrkj?id=36456


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

这篇关于Talk | 约翰霍普金斯大学博士生魏晨: De-Diffusion-文本是不同模态的沟通桥梁的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/521539

相关文章

Python中图片与PDF识别文本(OCR)的全面指南

《Python中图片与PDF识别文本(OCR)的全面指南》在数据爆炸时代,80%的企业数据以非结构化形式存在,其中PDF和图像是最主要的载体,本文将深入探索Python中OCR技术如何将这些数字纸张转... 目录一、OCR技术核心原理二、python图像识别四大工具库1. Pytesseract - 经典O

苹果macOS 26 Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色

《苹果macOS26Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色》在整体系统设计方面,macOS26采用了全新的玻璃质感视觉风格,应用于Dock栏、应用图标以及桌面小部件等多个界面... 科技媒体 MACRumors 昨日(6 月 13 日)发布博文,报道称在 macOS 26 Tahoe 中

Python实现精准提取 PDF中的文本,表格与图片

《Python实现精准提取PDF中的文本,表格与图片》在实际的系统开发中,处理PDF文件不仅限于读取整页文本,还有提取文档中的表格数据,图片或特定区域的内容,下面我们来看看如何使用Python实... 目录安装 python 库提取 PDF 文本内容:获取整页文本与指定区域内容获取页面上的所有文本内容获取

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

Java使用SLF4J记录不同级别日志的示例详解

《Java使用SLF4J记录不同级别日志的示例详解》SLF4J是一个简单的日志门面,它允许在运行时选择不同的日志实现,这篇文章主要为大家详细介绍了如何使用SLF4J记录不同级别日志,感兴趣的可以了解下... 目录一、SLF4J简介二、添加依赖三、配置Logback四、记录不同级别的日志五、总结一、SLF4J

C#TextBox设置提示文本方式(SetHintText)

《C#TextBox设置提示文本方式(SetHintText)》:本文主要介绍C#TextBox设置提示文本方式(SetHintText),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑... 目录C#TextBox设置提示文本效果展示核心代码总结C#TextBox设置提示文本效果展示核心代

MySQL中慢SQL优化的不同方式介绍

《MySQL中慢SQL优化的不同方式介绍》慢SQL的优化,主要从两个方面考虑,SQL语句本身的优化,以及数据库设计的优化,下面小编就来给大家介绍一下有哪些方式可以优化慢SQL吧... 目录避免不必要的列分页优化索引优化JOIN 的优化排序优化UNION 优化慢 SQL 的优化,主要从两个方面考虑,SQL 语

使用Python实现文本转语音(TTS)并播放音频

《使用Python实现文本转语音(TTS)并播放音频》在开发涉及语音交互或需要语音提示的应用时,文本转语音(TTS)技术是一个非常实用的工具,下面我们来看看如何使用gTTS和playsound库将文本... 目录什么是 gTTS 和 playsound安装依赖库实现步骤 1. 导入库2. 定义文本和语言 3

Python实现常用文本内容提取

《Python实现常用文本内容提取》在日常工作和学习中,我们经常需要从PDF、Word文档中提取文本,本文将介绍如何使用Python编写一个文本内容提取工具,有需要的小伙伴可以参考下... 目录一、引言二、文本内容提取的原理三、文本内容提取的设计四、文本内容提取的实现五、完整代码示例一、引言在日常工作和学

Java实现将Markdown转换为纯文本

《Java实现将Markdown转换为纯文本》这篇文章主要为大家详细介绍了两种在Java中实现Markdown转纯文本的主流方法,文中的示例代码讲解详细,大家可以根据需求选择适合的方案... 目录方法一:使用正则表达式(轻量级方案)方法二:使用 Flexmark-Java 库(专业方案)1. 添加依赖(Ma