Meta FAIR研究新成果:图像到文本、文本到音乐的生成模型,多标记预测模型以及AI生成语音检测技术

本文主要是介绍Meta FAIR研究新成果:图像到文本、文本到音乐的生成模型,多标记预测模型以及AI生成语音检测技术,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Meta AI研究实验室(FAIR)公开发布了多项新研究成果,包括图像到文本和文本到音乐的生成模型,多词预测模型,以及检测AI生成语音的技术。发布的成果体现了开放性、协作、卓越和规模化等核心原则。公开早期研究工作旨在激发迭代,推动AI负责任发展。

  • Meta Chameleon系列模型可将文本和图像作为输入,输出任意文本和图像组合。已发布7B和34B模型的关键组件。

  • 发布多词预测预训练语言模型代码,可更高效训练语言模型。

  • 发布JASCO文本到音乐生成模型,可接受各种条件输入如音调、拍子等,改进对生成音乐的控制。

  • 发布AudioSeal,首个专为检测AI生成语音设计的音频水印技术,可实现对语音片段中的AI内容进行本地化检测。

  • 发布PRISM数据集,记录1500名参与者与21个LLM的交流及反馈,用于探索反馈过程的方法、领域和目标。

  • 发布GEO评估工具,用于评估文本到图像模型中的潜在地域差异;并探索了改进多样性的方法。

十多年来,Meta 的基础人工智能研究 (FAIR) 团队一直致力于通过开放研究推动人工智能的发展。随着该领域的创新继续快速发展,我们认为与全球人工智能社区的合作比以往任何时候都更加重要。保持开放的科学方法并与社区分享我们的工作有助于我们坚持我们的目标,即构建适合每个人并让世界更加紧密的人工智能系统。

今天,我们很高兴与全球社区分享一些最新的 FAIR 研究模型。我们公开发布了六项研究成果,重点关注我们工作的核心主题:创新、创造力、效率和责任。这些发布包括图像到文本和文本到音乐的生成模型、多标记预测模型以及用于检测 AI 生成的语音的技术。通过公开分享我们的早期研究工作,我们希望激发迭代并最终以负责任的方式帮助推动 AI 的发展。我们迫不及待地想看看社区使用这些最新版本构建了什么,并继续与开源社区进行重要的对话。

Meta Chameleon

Meta Chameleon 是一个模型系列,它可以将文本和图像组合为输入,并以单一统一的架构输出任意文本和图像组合,用于编码和解码。

虽然大多数当前的后期融合模型使用基于扩散的学习,但 Meta Chameleon 对文本和图像使用标记化。这可以实现更统一的方法,并使模型更易于设计、维护和扩展。可能性无穷无尽 - 想象一下为图像生成创意标题或使用文本提示和图像的混合来创建一个全新的场景。

Multi-Token Prediction

大多数LLM都有一个简单的训练目标:预测下一个单词。虽然这种方法简单且可扩展,但效率也很低。与孩子们学习同等程度的语言流利程度相比,它需要的文本要多几个数量级。

今年4月,我们提出了一种新的方法,通过使用多令牌预测来构建更好更快的llm。使用这种方法,我们训练语言模型一次预测多个将来单词,而不是旧的一次预测一个单词的方法。这提高了模型能力和训练效率,同时允许更快的速度。本着负责任的开放科学精神,我们在非商业/仅限研究的许可下发布了预训练的代码完成模型。我们希望这能使研究界独立地研究我们的方法和训练模型的行为。

AudioSeal

生成式 AI 工具正在激励人们在社交媒体上与朋友、家人和关注者分享自己的创作。与所有 AI 创新一样,我们必须尽自己的一份力量来帮助确保负责任地使用这些工具。今天,我们发布了 AudioSeal,我们认为这是第一种专门为局部检测 AI 生成的语音而设计的音频水印技术,可以精确定位较长音频片段中的 AI 生成的片段。AudioSeal 通过专注于检测 AI 生成的内容而不是隐写术来改进传统的音频水印。与依赖复杂解码算法的传统方法不同,AudioSeal 的局部检测方法可以实现更快、更高效的检测。与以前的方法相比,这种设计将检测速度提高了 485 倍,使其非常适合大规模和实时应用。我们的方法在音频水印的稳健性和不可感知性方面实现了最先进的性能。

AudioSeal 是根据商业许可发布的。这只是我们为防止滥用生成式 AI 工具而分享的几条负责任的研究路线之一。我们在基础文本和语音翻译模型SeamlessM4T v2和Audiobox生成的语音样本中加入了类似的水印。我们在最近的版本中进一步详细介绍了针对图像、语音和文本模型的水印方法。

JASCO:Text-to-Music

生成式人工智能使人们能够以新的方式探索创造力,例如将文本提示转换为音乐片段。虽然现有的文本转音乐模型(如MusicGen)主要依靠文本输入来生成音乐,但我们的新模型“用于时间控制文本转音乐生成的元联合音频和符号条件”(JASCO)能够接受各种条件输入,例如特定的和弦或节拍,以改善对生成的音乐输出的控制。具体来说,我们将信息瓶颈层与时间模糊结合使用,以提取与特定控制相关的信息。这允许在同一个文本转音乐生成模型中同时结合符号和基于音频的条件。

结果表明,JASCO 在生成质量方面与评估基线相当,同时允许对生成的音乐进行更好、更灵活的控制。

PRISM数据集

从多元化的人群中获取反馈对于提高 LLM 水平至关重要,但研究界对反馈过程的方法、领域和目标一直存在疑问。我们与外部合作伙伴合作解决这些问题,支持发布 PRISM 数据集,该数据集映射了来自 75 个国家/地区的 1,500 名多元化参与者的社会人口统计数据和偏好。该数据集将每个人的偏好和细粒度反馈映射到与 21 位不同 LLM 的 8,011 次实时对话中。

Meta 为我们的外部合作伙伴编制 PRISM 数据集提供了建议,重点关注以主观和多元文化观点为中心的对话,这些对话可能存在人际和跨文化分歧。我们的论文通过对话多样性、偏好多样性和福利结果三个案例研究证明了 PRISM 的实用性,表明哪些人设定了一致规范很重要。虽然我们希望这将成为社区资源,但我们也希望它能够激发人们更广泛地参与人工智能开发,并促进更具包容性的技术设计方法。

这篇关于Meta FAIR研究新成果:图像到文本、文本到音乐的生成模型,多标记预测模型以及AI生成语音检测技术的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1079322

相关文章

Java使用Javassist动态生成HelloWorld类

《Java使用Javassist动态生成HelloWorld类》Javassist是一个非常强大的字节码操作和定义库,它允许开发者在运行时创建新的类或者修改现有的类,本文将简单介绍如何使用Javass... 目录1. Javassist简介2. 环境准备3. 动态生成HelloWorld类3.1 创建CtC

Java实现在Word文档中添加文本水印和图片水印的操作指南

《Java实现在Word文档中添加文本水印和图片水印的操作指南》在当今数字时代,文档的自动化处理与安全防护变得尤为重要,无论是为了保护版权、推广品牌,还是为了在文档中加入特定的标识,为Word文档添加... 目录引言Spire.Doc for Java:高效Word文档处理的利器代码实战:使用Java为Wo

Python从Word文档中提取图片并生成PPT的操作代码

《Python从Word文档中提取图片并生成PPT的操作代码》在日常办公场景中,我们经常需要从Word文档中提取图片,并将这些图片整理到PowerPoint幻灯片中,手动完成这一任务既耗时又容易出错,... 目录引言背景与需求解决方案概述代码解析代码核心逻辑说明总结引言在日常办公场景中,我们经常需要从 W

Java+AI驱动实现PDF文件数据提取与解析

《Java+AI驱动实现PDF文件数据提取与解析》本文将和大家分享一套基于AI的体检报告智能评估方案,详细介绍从PDF上传、内容提取到AI分析、数据存储的全流程自动化实现方法,感兴趣的可以了解下... 目录一、核心流程:从上传到评估的完整链路二、第一步:解析 PDF,提取体检报告内容1. 引入依赖2. 封装

Python文本相似度计算的方法大全

《Python文本相似度计算的方法大全》文本相似度是指两个文本在内容、结构或语义上的相近程度,通常用0到1之间的数值表示,0表示完全不同,1表示完全相同,本文将深入解析多种文本相似度计算方法,帮助您选... 目录前言什么是文本相似度?1. Levenshtein 距离(编辑距离)核心公式实现示例2. Jac

Python脚本轻松实现检测麦克风功能

《Python脚本轻松实现检测麦克风功能》在进行音频处理或开发需要使用麦克风的应用程序时,确保麦克风功能正常是非常重要的,本文将介绍一个简单的Python脚本,能够帮助我们检测本地麦克风的功能,需要的... 目录轻松检测麦克风功能脚本介绍一、python环境准备二、代码解析三、使用方法四、知识扩展轻松检测麦

C#使用Spire.XLS快速生成多表格Excel文件

《C#使用Spire.XLS快速生成多表格Excel文件》在日常开发中,我们经常需要将业务数据导出为结构清晰的Excel文件,本文将手把手教你使用Spire.XLS这个强大的.NET组件,只需几行C#... 目录一、Spire.XLS核心优势清单1.1 性能碾压:从3秒到0.5秒的质变1.2 批量操作的优雅

Python中高级文本模式匹配与查找技术指南

《Python中高级文本模式匹配与查找技术指南》文本处理是编程世界的永恒主题,而模式匹配则是文本处理的基石,本文将深度剖析PythonCookbook中的核心匹配技术,并结合实际工程案例展示其应用,希... 目录引言一、基础工具:字符串方法与序列匹配二、正则表达式:模式匹配的瑞士军刀2.1 re模块核心AP

Python使用python-pptx自动化操作和生成PPT

《Python使用python-pptx自动化操作和生成PPT》这篇文章主要为大家详细介绍了如何使用python-pptx库实现PPT自动化,并提供实用的代码示例和应用场景,感兴趣的小伙伴可以跟随小编... 目录使用python-pptx操作PPT文档安装python-pptx基础概念创建新的PPT文档查看

在ASP.NET项目中如何使用C#生成二维码

《在ASP.NET项目中如何使用C#生成二维码》二维码(QRCode)已广泛应用于网址分享,支付链接等场景,本文将以ASP.NET为示例,演示如何实现输入文本/URL,生成二维码,在线显示与下载的完整... 目录创建前端页面(Index.cshtml)后端二维码生成逻辑(Index.cshtml.cs)总结