OpenAI发布Voice Engine模型!用AI合成你的声音!

2024-03-30 08:36

本文主要是介绍OpenAI发布Voice Engine模型!用AI合成你的声音!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

北美时间3月29日,OpenAI继续大秀肌肉,在一篇博客中发布并展示了一款AI合成语音的模型,Voice Engine。Voice Engine的核心功能是从15秒的录音中生成接近说话者音色的自然语音。如果你上传自己的录音和一段文本,它可以使用听起来像你的AI合成语音来读取文本。并且,文本不必是母语。例如,Voice Engine可以用中文、英语、西班牙语、法语或许多其他语言重新创建你的声音。

和之前公布的文本生成视频模型Sora一样,OpenAI并没有公测Voice Engine这项技术,而是仅对少部分内测用户开放。据OpenAI官方表示,它仍在探索这项AI技术潜在的风险。与图像和视频生成模型一样,语音生成模型很有可能被用在社交媒体上散布虚假信息,并且可能被犯罪分子用来在网上或电话中冒充他人。OpenAI担心Voice Engine可能被用来破解银行账户和其他个人应用程序访问的声音认证系统。

OpenAI的产品经理Jeff Harris在接受采访时表示:“This is a sensitive thing, and it is important to get it right. (这是一个敏感的问题,正确处理它非常重要。)”OpenAI正在探索为合成声音添加水印或控制措施,以防止人们使用该技术模仿政治家或其他知名人物的声音。

Voice Engine早期应用场景

早在2022年底,OpenAI就已开发Voice Engine,并使用它来为文本转语音(TTS)API中的预设声音以及ChatGPT Voice和Read Aloud提供支持。OpenAI表示它一直抱着谨慎的态度,防止AI合成的声音被滥用。目前Voice Engine正在进行小规模测试,OpenAI将根据小规模测试结果做出关于是否以及如何在更大规模上部署这项技术的决定。

关于文本转语音TTS技术感兴趣的小伙伴可以看我之前的这篇文章:ChatGPT最新功能“Text To Speech (TTS,文本转语音)”详细解读!

Voice Engine自去年开始的早期应用场景包括:

  1. 教育辅助与个性化互动

    • 通过听起来很自然、富有情感的声音为阅读障碍人群和儿童提供阅读辅助,提供比一些预设声音更广泛的音色。致力于儿童学术的教育技术公司Age of Learning一直在使用这项技术来生成预设脚本的配音内容。他们还使用Voice Engine和GPT-4来创建实时、个性化的响应,与学生互动。通过这项技术,Age of Learning能够为更广泛的受众创造更多内容。

  2. 多语言视频和播客翻译

    • Voice Engine技术支持将内容如视频和播客翻译成多种语言,使创作者和企业能够以自己的语言流利地触及全球观众。早期使用者之一是HeyGen,这是一个AI视觉叙事平台,与他们的企业客户合作,为各种内容创建定制的、类人化的头像,从产品营销到销售演示。他们使用Voice Engine进行视频翻译,这样他们可以将说话者的声音翻译成多种语言,并触及全球观众。当用于翻译时,Voice Engine保留了原始说话者的本地口音:例如,使用法语说话者的音频样本生成的英语会带有法语口音。

  3. 提升偏远地区服务交付

    • 通过改善偏远地区的基本服务交付,触达全球社区。Dimagi正在为社区卫生工作者构建工具,以提供各种基本服务,例如为哺乳母亲提供咨询。为了帮助这些工作者发展他们的技能,Dimagi使用Voice Engine和GPT-4以每位工作者的主要语言提供交互式反馈,包括斯瓦希里语或像Sheng这样的非正式语言,Sheng是肯尼亚流行的混合代码语言。

  4. 增强语言障碍人群的沟通能力

    • 支持无法用语言进行沟通的人群,例如为影响语言的疾病患者的治疗应用和为有学习需求的人提供教育增强。Livox是一个AI替代通讯应用程序,为残疾人提供增强性和替代性通讯(AAC)设备。通过使用Voice Engine,他们能够为非言语人群提供独特且非机械的声音,涵盖多种语言。他们的用户可以选择最能代表他们的声音,对于多语言用户来说,可以在每种口语中保持一致的声音。

  5. 帮助患者恢复声音

    • 帮助患者恢复声音。布朗大学医学院的主要教学附属机构,Norman Prince Neurosciences Institute正在探索AI在临床环境中的用途。他们一直在试行一个项目,为因肿瘤或神经原因导致言语障碍的个体提供Voice Engine。由于Voice Engine只需要15s之短的音频样本,医生Fatima Mirza、Rohaid Ali和Konstantina Svokos能够恢复一位因脑血管肿瘤失去流利语言能力的年轻患者的的声音,使用的是为学校项目录制的视频中的音频。

构建安全的Voice Engine

OpenAI再次强调,在构建Voice Engine时充分意识到AI合成语音技术可能带来的风险,尤其是在选举关键时期。为了确保这项技术的安全使用,OpenAI积极与来自政府、媒体、娱乐、教育和民间社会的美国及国际合作伙伴进行沟通,以获取他们的反馈和建议,并将其融入到技术构建的过程中。

在测试阶段,OpenAI与合作伙伴共同制定了严格的使用政策,明确禁止未经授权的个人或组织声音模仿行为。合作伙伴需获取原始说话者的明确和知情同意,同时确保开发者不为个人用户创建定制声音,并要求向听众明确披露所听到的声音是由AI生成的。此外,为了追踪音频来源并监控使用情况,实施了包括水印技术和主动监控在内的安全措施。OpenAI还提倡建立声音认证机制和禁止声音列表,以防止合成声音与知名人物过于相似,确保技术的负责任部署。

面向未来的技术展望与社会责任

Voice Engine的开发体现了OpenAI对人工智能前沿技术的深入探索和对公开分享其潜力的承诺。在考虑到AI安全性的重要性和对社会的潜在影响下,选择仅进行有限的预览而非全面发布,旨在平衡技术的推广与其可能带来的风险。这一举措旨在展示该技术的潜力,同时唤起社会对于由高度逼真的生成式AI模型所带来的挑战的关注和应对能力。

为了应对AI合成语音技术可能带来的挑战,OpenAI提出了一系列具体的行动建议。这包括逐步淘汰基于声音的认证机制,以增强对敏感信息的保护;探索制定相关政策以保护个人声音不被滥用;普及AI技术的教育,提高公众对技术的理解和对潜在欺骗性内容的警觉;以及加速开发能够追踪音视频内容来源的技术,确保用户能够明确区分真人与AI的互动。

OpenAI博文原文

最后,附上英文版的OpenAI博文原文:

https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices


精选推荐

  1. 完全免费白嫖GPT4的三个方法,都给你整理好了!

  2. AI领域的国产之光,ChatGPT的免费平替:Kimi Chat!

  3. Kimi Chat,不仅仅是聊天!深度剖析Kimi Chat 5大使用场景!

  4. 我用AI工具5分钟制作一个动画微电影!这个AI现在免费!

  5. 当全网都在疯转OpenAI的Sora时,我们普通人能做哪些准备?——关于Sora,你需要了解这些!

  6. 文心一言4.0 VS ChatGPT4.0哪家强?!每月60块的文心一言4.0值得开吗?

  7. ChatGPT和文心一言哪个更好用?一道题告诉你答案!

  8. 字节推出了“扣子”,国内版的Coze,但是我不推荐你用!

  9. 白嫖GPT4,Dalle3和GPT4V - 字节开发的Coze初体验!附教程及提示词Prompt

  10. 2024年了你还在用百度翻译?手把手教会你使用AI翻译!一键翻译网页和PDF文件!


都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。

这篇关于OpenAI发布Voice Engine模型!用AI合成你的声音!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/860995

相关文章

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

SpringBoot整合Sa-Token实现RBAC权限模型的过程解析

《SpringBoot整合Sa-Token实现RBAC权限模型的过程解析》:本文主要介绍SpringBoot整合Sa-Token实现RBAC权限模型的过程解析,本文给大家介绍的非常详细,对大家的学... 目录前言一、基础概念1.1 RBAC模型核心概念1.2 Sa-Token核心功能1.3 环境准备二、表结

Spring AI 实现 STDIO和SSE MCP Server的过程详解

《SpringAI实现STDIO和SSEMCPServer的过程详解》STDIO方式是基于进程间通信,MCPClient和MCPServer运行在同一主机,主要用于本地集成、命令行工具等场景... 目录Spring AI 实现 STDIO和SSE MCP Server1.新建Spring Boot项目2.a

macOS Sequoia 15.5 发布: 改进邮件和屏幕使用时间功能

《macOSSequoia15.5发布:改进邮件和屏幕使用时间功能》经过常规Beta测试后,新的macOSSequoia15.5现已公开发布,但重要的新功能将被保留到WWDC和... MACOS Sequoia 15.5 正式发布!本次更新为 Mac 用户带来了一系列功能强化、错误修复和安全性提升,进一步增

Maven 依赖发布与仓库治理的过程解析

《Maven依赖发布与仓库治理的过程解析》:本文主要介绍Maven依赖发布与仓库治理的过程解析,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下... 目录Maven 依赖发布与仓库治理引言第一章:distributionManagement配置的工程化实践1

Python中edge-tts实现便捷语音合成

《Python中edge-tts实现便捷语音合成》edge-tts是一个功能强大的Python库,支持多种语言和声音选项,本文主要介绍了Python中edge-tts实现便捷语音合成,具有一定的参考价... 目录安装与环境设置文本转语音查找音色更改语音参数生成音频与字幕总结edge-tts 是一个功能强大的

Python实现word文档内容智能提取以及合成

《Python实现word文档内容智能提取以及合成》这篇文章主要为大家详细介绍了如何使用Python实现从10个左右的docx文档中抽取内容,再调整语言风格后生成新的文档,感兴趣的小伙伴可以了解一下... 目录核心思路技术路径实现步骤阶段一:准备工作阶段二:内容提取 (python 脚本)阶段三:语言风格调

使用Python构建一个Hexo博客发布工具

《使用Python构建一个Hexo博客发布工具》虽然Hexo的命令行工具非常强大,但对于日常的博客撰写和发布过程,我总觉得缺少一个直观的图形界面来简化操作,下面我们就来看看如何使用Python构建一个... 目录引言Hexo博客系统简介设计需求技术选择代码实现主框架界面设计核心功能实现1. 发布文章2. 加

售价599元起! 华为路由器X1/Pro发布 配置与区别一览

《售价599元起!华为路由器X1/Pro发布配置与区别一览》华为路由器X1/Pro发布,有朋友留言问华为路由X1和X1Pro怎么选择,关于这个问题,本期图文将对这二款路由器做了期参数对比,大家看... 华为路由 X1 系列已经正式发布并开启预售,将在 4 月 25 日 10:08 正式开售,两款产品分别为华

利用Python快速搭建Markdown笔记发布系统

《利用Python快速搭建Markdown笔记发布系统》这篇文章主要为大家详细介绍了使用Python生态的成熟工具,在30分钟内搭建一个支持Markdown渲染、分类标签、全文搜索的私有化知识发布系统... 目录引言:为什么要自建知识博客一、技术选型:极简主义开发栈二、系统架构设计三、核心代码实现(分步解析