开源模型应用落地-语音转文本-openai-STT服务-AIGC应用探索(四)

2024-06-03 20:04

本文主要是介绍开源模型应用落地-语音转文本-openai-STT服务-AIGC应用探索(四),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、前言

    语音转文本技术具有重要价值。它能提高信息记录和处理的效率,使人们可以快速将语音内容转换为可编辑、可存储的文本形式,方便后续查阅和分析。在教育领域,可帮助学生更好地记录课堂重点;在办公场景中,能简化会议记录工作。同时,该技术也为残障人士提供了便利,让他们能更方便地与外界交流。此外,对于媒体行业、客服行业等都有着广泛的应用,极大地提升了工作流程和服务质量。 

    本文将介绍OpenAI付费的语音识别服务。这个服务可以帮助用户将语音转换成文本,为用户提供方便实用的语音转文本服务。


二、术语介绍

2.1. 语音转文本

    也称为语音识别或自动语音识别 (ASR)是一种将语音音频转换为文字的技术。它利用计算机程序和算法来监听语音输入,并将其转换为可读的文字输出。

2.2. Whisper(付费版本)

    Whisper是一个通用语音识别模型。它是在大型多样化音频数据集上训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言鉴别。

    目前,开源版本的Whisper和通过Openai API提供的版本没有区别。但是,通过Openai API,提供了优化的推理过程,这使得通过API运行Whisper的速度要快于其他方式。

    具体参见:  https://platform.openai.com/docs/models/whisper


三、构建环境

3.1.基础环境

  1.  操作系统:centos7
  2.  Tesla V100-SXM2-32GB  CUDA Version: 12.2

3.2.安装虚拟环境

conda create -n whisper  python=3.10
conda activate whisper
pip install openai

四、技术实现

4.1. 准备测试音频文件

先搞个测试音频:英语诗歌朗诵:Freedom 珍惜自由_Mp3免费下载-在线听力 - 听力课堂

4.2. Openai调用方式

4.2.1.Transcriptions

# -*- coding: utf-8 -*-
import os
from openai import OpenAIos.environ["OPENAI_API_KEY"] = 'sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'    #你的Open AI Keyif __name__ == '__main__':input_path = "C:\\Downloads\\freedom.mp3"client = OpenAI()audio_file = open(input_path, "rb")transcription = client.audio.transcriptions.create(model="whisper-1",file=audio_file)print(transcription.text)

调用结果:

结论:

Openai生成的文本和官方提供的文本有一些差异(我也没有听过测试音频,不敢保证官方提供的文本是否百分百正确,或者模型生成的才是正解,你们来动手实践一下,看看谁更准确呢?),对比如下:

注意:

文件上传目前限制为25 MB,支持以下输入文件类型:mp3、mp4、mpeg、mpga、m4a、wav和webm。

4.2.2.Translations

# -*- coding: utf-8 -*-
import os
from openai import OpenAIos.environ["OPENAI_API_KEY"] = 'sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'    #你的Open AI Keyif __name__ == '__main__':input_path = "C:\\Downloads\\freedom.mp3"client = OpenAI()audio_file = open(input_path, "rb")translation = client.audio.translations.create(model="whisper-1",file=audio_file)print(translation.text)

调用结果:

执行结果与实现方式一一致

4.3. 传统调用方式

# -*- coding: utf-8 -*-
import requestsurl = "https://api.openai.com/v1/audio/transcriptions"
OPENAI_API_KEY = 'sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'    #你的Open AI Keyif __name__ == '__main__':input_path = "C:\\Downloads\\freedom.mp3"headers = {"Authorization": f"Bearer {OPENAI_API_KEY}"}files = {'file': ('freedom.mp3', open(input_path, 'rb'), 'application/octet-stream')}params = {'model': 'whisper-1'}with open(input_path, 'rb') as file:response = requests.post(url, files={'file': file}, data=params, headers=headers)if response.status_code == 200:print("Audio transcription successful!")print(response.json())else:print("Audio transcription failed.")print(response.text)

调用结果:

执行结果与实现方式一一致

PS:

1. 实现方式三不需要安装openai库,更轻便,通用性更好

2. 切换url(https://api.openai.com/v1/audio/transcriptions)可以实现音频翻译的功能

4.4. CURL调用方式

Transcriptions

curl --request POST \--url https://api.openai.com/v1/audio/transcriptions \--header "Authorization: Bearer $OPENAI_API_KEY" \--header 'Content-Type: multipart/form-data' \--form file=@/path/to/file/audio.mp3 \--form model=whisper-1

Translations

curl --request POST \--url https://api.openai.com/v1/audio/translations \--header "Authorization: Bearer $OPENAI_API_KEY" \--header 'Content-Type: multipart/form-data' \--form file=@/path/to/file/german.mp3 \--form model=whisper-1

五、附带说明

5.1. 方式一的​Transcriptions​和方式二的Translations的区别

  • Transcriptions:将音频转录为音频所使用的任何语言。
  • Translations:将音频翻译并转录成英文。与Transcriptions差异是Translations的输出不是原始输入语言,而是翻译成英文文本。

5.2. 方式三出现“Could not parse multipart form”问题

解决方法:把请求头的"Content-Type": "multipart/form-data" 声明去掉

这篇关于开源模型应用落地-语音转文本-openai-STT服务-AIGC应用探索(四)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1027970

相关文章

PHP应用中处理限流和API节流的最佳实践

《PHP应用中处理限流和API节流的最佳实践》限流和API节流对于确保Web应用程序的可靠性、安全性和可扩展性至关重要,本文将详细介绍PHP应用中处理限流和API节流的最佳实践,下面就来和小编一起学习... 目录限流的重要性在 php 中实施限流的最佳实践使用集中式存储进行状态管理(如 Redis)采用滑动

Java实现在Word文档中添加文本水印和图片水印的操作指南

《Java实现在Word文档中添加文本水印和图片水印的操作指南》在当今数字时代,文档的自动化处理与安全防护变得尤为重要,无论是为了保护版权、推广品牌,还是为了在文档中加入特定的标识,为Word文档添加... 目录引言Spire.Doc for Java:高效Word文档处理的利器代码实战:使用Java为Wo

深入浅出Spring中的@Autowired自动注入的工作原理及实践应用

《深入浅出Spring中的@Autowired自动注入的工作原理及实践应用》在Spring框架的学习旅程中,@Autowired无疑是一个高频出现却又让初学者头疼的注解,它看似简单,却蕴含着Sprin... 目录深入浅出Spring中的@Autowired:自动注入的奥秘什么是依赖注入?@Autowired

sysmain服务可以禁用吗? 电脑sysmain服务关闭后的影响与操作指南

《sysmain服务可以禁用吗?电脑sysmain服务关闭后的影响与操作指南》在Windows系统中,SysMain服务(原名Superfetch)作为一个旨在提升系统性能的关键组件,一直备受用户关... 在使用 Windows 系统时,有时候真有点像在「开盲盒」。全新安装系统后的「默认设置」,往往并不尽编

Python 基于http.server模块实现简单http服务的代码举例

《Python基于http.server模块实现简单http服务的代码举例》Pythonhttp.server模块通过继承BaseHTTPRequestHandler处理HTTP请求,使用Threa... 目录测试环境代码实现相关介绍模块简介类及相关函数简介参考链接测试环境win11专业版python

Nginx中配置使用非默认80端口进行服务的完整指南

《Nginx中配置使用非默认80端口进行服务的完整指南》在实际生产环境中,我们经常需要将Nginx配置在其他端口上运行,本文将详细介绍如何在Nginx中配置使用非默认端口进行服务,希望对大家有所帮助... 目录一、为什么需要使用非默认端口二、配置Nginx使用非默认端口的基本方法2.1 修改listen指令

PostgreSQL简介及实战应用

《PostgreSQL简介及实战应用》PostgreSQL是一种功能强大的开源关系型数据库管理系统,以其稳定性、高性能、扩展性和复杂查询能力在众多项目中得到广泛应用,本文将从基础概念讲起,逐步深入到高... 目录前言1. PostgreSQL基础1.1 PostgreSQL简介1.2 基础语法1.3 数据库

SysMain服务可以关吗? 解决SysMain服务导致的高CPU使用率问题

《SysMain服务可以关吗?解决SysMain服务导致的高CPU使用率问题》SysMain服务是超级预读取,该服务会记录您打开应用程序的模式,并预先将它们加载到内存中以节省时间,但它可能占用大量... 在使用电脑的过程中,CPU使用率居高不下是许多用户都遇到过的问题,其中名为SysMain的服务往往是罪魁

Python文本相似度计算的方法大全

《Python文本相似度计算的方法大全》文本相似度是指两个文本在内容、结构或语义上的相近程度,通常用0到1之间的数值表示,0表示完全不同,1表示完全相同,本文将深入解析多种文本相似度计算方法,帮助您选... 目录前言什么是文本相似度?1. Levenshtein 距离(编辑距离)核心公式实现示例2. Jac

Python中的filter() 函数的工作原理及应用技巧

《Python中的filter()函数的工作原理及应用技巧》Python的filter()函数用于筛选序列元素,返回迭代器,适合函数式编程,相比列表推导式,内存更优,尤其适用于大数据集,结合lamb... 目录前言一、基本概念基本语法二、使用方式1. 使用 lambda 函数2. 使用普通函数3. 使用 N