阿里巴巴提出AnyText:首个解决多语言视觉文本生成的工作

本文主要是介绍阿里巴巴提出AnyText:首个解决多语言视觉文本生成的工作,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

基于扩散模型的文本到图像在最近取得了令人瞩目的成就。尽管当前的图像合成技术已经非常先进,能够以高保真度生成图像,但当关注生成图像中的文本区域时,往往可能会暴露问题,因为合成文本通常包含模糊、不可读或不正确的字符,使得视觉文本生成成为该领域最具挑战性的问题之一。为了解决这个问题,本文引入了AnyText,这是一个基于扩散的多语言视觉文本生成和编辑模型,专注于在图像中呈现准确而连贯的文本。AnyText包括一个具有两个主要元素的扩散pipeline:辅助潜在模块和文本embedding模块。前者使用文本字形、位置和mask图像等输入,生成用于文本生成或编辑的潜在特征。后者采用OCR模型将笔画数据编码为embedding,这些embedding与来自分词器的图像字幕embedding融合,生成与背景无缝集成的文本。使用文本控制扩散损失和文本感知损失进行训练,以进一步提高写作准确性。AnyText可以书写多种语言的字符,据我们所知,这是首个解决多语言视觉文本生成的工作。值得一提的是,AnyText可以插入社区中现有的扩散模型,以准确呈现或编辑文本。在进行了广泛的评估实验后,我们的方法在所有其他方法中表现出色。此外,我们贡献了第一个大规模的多语言文本图像数据集AnyWord-3M,包含300万个图像文本对,其中包含多种语言的OCR注释。基于AnyWord-3M数据集,我们提出了AnyText-benchmark,用于评估视觉文本生成的准确性和质量。

开源地址:https://github.com/tyxsspa/AnyText

主要贡献

a) 多行:AnyText可以在用户指定的位置生成多行文本。

b) 变形区域:它可以在水平、垂直甚至弯曲或不规则的区域进行书写。

c) 多语言:我们的方法可以生成中文、英文、日文、韩文等多种语言的文本。

d) 文本编辑:提供在所提供的图像中以一致的字体样式修改文本内容的能力。

e) 即插即用:AnyText可以与稳定的扩散模型无缝集成,并赋予它们生成文本的能力。

算法框架

对于文本生成,AnyText可以将指定的文本从提示渲染到指定的位置,并生成外观吸引人的图像。至于文本编辑,AnyText可以在输入图像中指定位置修改文本内容,同时保持与周围文本样式的一致性。如下图:对于提示中的非英语单词,提供括号中的翻译,蓝色框表示文本编辑的位置。

AnyText的框架,包括文本控制扩散pipeline、辅助潜在模块、文本embedding模块和文本感知损失:

效果展示

AnyText和竞争方法的定量比较。下表中†是在LAION-Glyph-10M上训练的,而‡是在TextCaps-5k上进行了微调。所有竞争方法都使用官方发布的模型进行评估。

AnyText和英文文本生成的最新模型或API的定性比较。所有标题均从AnyText-benchmark的英文评估数据集中选择:

GlyphDraw、ControlNet和AnyText在中文文本生成方面的比较示例,所有示例均摘自原始的GlyphDraw论文:

一些无文本生成图像效果:

与 AnyText 集成的可以生成文本的模型示例

文本生成中AnyText的更多效果展示:

文本编辑中的AnyText 效果展示:

 

多精彩内容,请关注公众号:AI生成未来

这篇关于阿里巴巴提出AnyText:首个解决多语言视觉文本生成的工作的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/593936

相关文章

基于Go语言实现Base62编码的三种方式以及对比分析

《基于Go语言实现Base62编码的三种方式以及对比分析》Base62编码是一种在字符编码中使用62个字符的编码方式,在计算机科学中,,Go语言是一种静态类型、编译型语言,它由Google开发并开源,... 目录一、标准库现状与解决方案1. 标准库对比表2. 解决方案完整实现代码(含边界处理)二、关键实现细

使用Python自动化生成PPT并结合LLM生成内容的代码解析

《使用Python自动化生成PPT并结合LLM生成内容的代码解析》PowerPoint是常用的文档工具,但手动设计和排版耗时耗力,本文将展示如何通过Python自动化提取PPT样式并生成新PPT,同时... 目录核心代码解析1. 提取 PPT 样式到 jsON关键步骤:代码片段:2. 应用 JSON 样式到

如何合理管控Java语言的异常

《如何合理管控Java语言的异常》:本文主要介绍如何合理管控Java语言的异常问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、介绍2、Thorwable类3、Error4、Exception类4.1、检查异常4.2、运行时异常5、处理方式5.1. 捕获异常

SpringBoot实现二维码生成的详细步骤与完整代码

《SpringBoot实现二维码生成的详细步骤与完整代码》如今,二维码的应用场景非常广泛,从支付到信息分享,二维码都扮演着重要角色,SpringBoot是一个非常流行的Java基于Spring框架的微... 目录一、环境搭建二、创建 Spring Boot 项目三、引入二维码生成依赖四、编写二维码生成代码五

C语言中的常见进制转换详解(从二进制到十六进制)

《C语言中的常见进制转换详解(从二进制到十六进制)》进制转换是计算机编程中的一个常见任务,特别是在处理低级别的数据操作时,C语言作为一门底层编程语言,在进制转换方面提供了灵活的操作方式,今天,我们将深... 目录1、进制基础2、C语言中的进制转换2.1 从十进制转换为其他进制十进制转二进制十进制转八进制十进

Idea插件MybatisX失效的问题解决

《Idea插件MybatisX失效的问题解决》:本文主要介绍Idea插件MybatisX失效的问题解决,详细的介绍了4种问题的解决方法,具有一定的参考价值,感兴趣的可以了解一下... 目录一、重启idea或者卸载重装MyBATis插件(无需多言)二、检查.XML文件与.Java(该文件后缀Idea可能会隐藏

Nginx 访问 /root/下 403 Forbidden问题解决

《Nginx访问/root/下403Forbidden问题解决》在使用Nginx作为Web服务器时,可能会遇到403Forbidden错误,文中通过示例代码介绍的非常详细,对大家的学习或者工作... 目录解决 Nginx 访问 /root/test/1.html 403 Forbidden 问题问题复现Ng

$在R语言中的作用示例小结

《$在R语言中的作用示例小结》在R语言中,$是一个非常重要的操作符,主要用于访问对象的成员或组件,它的用途非常广泛,不仅限于数据框(dataframe),还可以用于列表(list)、环境(enviro... 目录1. 访问数据框(data frame)中的列2. 访问列表(list)中的元素3. 访问jav

Python的pip在命令行无法使用问题的解决方法

《Python的pip在命令行无法使用问题的解决方法》PIP是通用的Python包管理工具,提供了对Python包的查找、下载、安装、卸载、更新等功能,安装诸如Pygame、Pymysql等Pyt... 目录前言一. pip是什么?二. 为什么无法使用?1. 当我们在命令行输入指令并回车时,一般主要是出现以

Python解决雅努斯问题实例方案详解

《Python解决雅努斯问题实例方案详解》:本文主要介绍Python解决雅努斯问题实例方案,雅努斯问题是指AI生成的3D对象在不同视角下出现不一致性的问题,即从不同角度看物体时,物体的形状会出现不... 目录一、雅努斯简介二、雅努斯问题三、示例代码四、解决方案五、完整解决方案一、雅努斯简介雅努斯(Janu