开源模型应用落地-语音转文本-openai-STT服务-AIGC应用探索(四)

2024-06-03 20:04

本文主要是介绍开源模型应用落地-语音转文本-openai-STT服务-AIGC应用探索(四),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、前言

    语音转文本技术具有重要价值。它能提高信息记录和处理的效率,使人们可以快速将语音内容转换为可编辑、可存储的文本形式,方便后续查阅和分析。在教育领域,可帮助学生更好地记录课堂重点;在办公场景中,能简化会议记录工作。同时,该技术也为残障人士提供了便利,让他们能更方便地与外界交流。此外,对于媒体行业、客服行业等都有着广泛的应用,极大地提升了工作流程和服务质量。 

    本文将介绍OpenAI付费的语音识别服务。这个服务可以帮助用户将语音转换成文本,为用户提供方便实用的语音转文本服务。


二、术语介绍

2.1. 语音转文本

    也称为语音识别或自动语音识别 (ASR)是一种将语音音频转换为文字的技术。它利用计算机程序和算法来监听语音输入,并将其转换为可读的文字输出。

2.2. Whisper(付费版本)

    Whisper是一个通用语音识别模型。它是在大型多样化音频数据集上训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言鉴别。

    目前,开源版本的Whisper和通过Openai API提供的版本没有区别。但是,通过Openai API,提供了优化的推理过程,这使得通过API运行Whisper的速度要快于其他方式。

    具体参见:  https://platform.openai.com/docs/models/whisper


三、构建环境

3.1.基础环境

  1.  操作系统:centos7
  2.  Tesla V100-SXM2-32GB  CUDA Version: 12.2

3.2.安装虚拟环境

conda create -n whisper  python=3.10
conda activate whisper
pip install openai

四、技术实现

4.1. 准备测试音频文件

先搞个测试音频:英语诗歌朗诵:Freedom 珍惜自由_Mp3免费下载-在线听力 - 听力课堂

4.2. Openai调用方式

4.2.1.Transcriptions

# -*- coding: utf-8 -*-
import os
from openai import OpenAIos.environ["OPENAI_API_KEY"] = 'sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'    #你的Open AI Keyif __name__ == '__main__':input_path = "C:\\Downloads\\freedom.mp3"client = OpenAI()audio_file = open(input_path, "rb")transcription = client.audio.transcriptions.create(model="whisper-1",file=audio_file)print(transcription.text)

调用结果:

结论:

Openai生成的文本和官方提供的文本有一些差异(我也没有听过测试音频,不敢保证官方提供的文本是否百分百正确,或者模型生成的才是正解,你们来动手实践一下,看看谁更准确呢?),对比如下:

注意:

文件上传目前限制为25 MB,支持以下输入文件类型:mp3、mp4、mpeg、mpga、m4a、wav和webm。

4.2.2.Translations

# -*- coding: utf-8 -*-
import os
from openai import OpenAIos.environ["OPENAI_API_KEY"] = 'sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'    #你的Open AI Keyif __name__ == '__main__':input_path = "C:\\Downloads\\freedom.mp3"client = OpenAI()audio_file = open(input_path, "rb")translation = client.audio.translations.create(model="whisper-1",file=audio_file)print(translation.text)

调用结果:

执行结果与实现方式一一致

4.3. 传统调用方式

# -*- coding: utf-8 -*-
import requestsurl = "https://api.openai.com/v1/audio/transcriptions"
OPENAI_API_KEY = 'sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'    #你的Open AI Keyif __name__ == '__main__':input_path = "C:\\Downloads\\freedom.mp3"headers = {"Authorization": f"Bearer {OPENAI_API_KEY}"}files = {'file': ('freedom.mp3', open(input_path, 'rb'), 'application/octet-stream')}params = {'model': 'whisper-1'}with open(input_path, 'rb') as file:response = requests.post(url, files={'file': file}, data=params, headers=headers)if response.status_code == 200:print("Audio transcription successful!")print(response.json())else:print("Audio transcription failed.")print(response.text)

调用结果:

执行结果与实现方式一一致

PS:

1. 实现方式三不需要安装openai库,更轻便,通用性更好

2. 切换url(https://api.openai.com/v1/audio/transcriptions)可以实现音频翻译的功能

4.4. CURL调用方式

Transcriptions

curl --request POST \--url https://api.openai.com/v1/audio/transcriptions \--header "Authorization: Bearer $OPENAI_API_KEY" \--header 'Content-Type: multipart/form-data' \--form file=@/path/to/file/audio.mp3 \--form model=whisper-1

Translations

curl --request POST \--url https://api.openai.com/v1/audio/translations \--header "Authorization: Bearer $OPENAI_API_KEY" \--header 'Content-Type: multipart/form-data' \--form file=@/path/to/file/german.mp3 \--form model=whisper-1

五、附带说明

5.1. 方式一的​Transcriptions​和方式二的Translations的区别

  • Transcriptions:将音频转录为音频所使用的任何语言。
  • Translations:将音频翻译并转录成英文。与Transcriptions差异是Translations的输出不是原始输入语言,而是翻译成英文文本。

5.2. 方式三出现“Could not parse multipart form”问题

解决方法:把请求头的"Content-Type": "multipart/form-data" 声明去掉

这篇关于开源模型应用落地-语音转文本-openai-STT服务-AIGC应用探索(四)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1027970

相关文章

苹果macOS 26 Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色

《苹果macOS26Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色》在整体系统设计方面,macOS26采用了全新的玻璃质感视觉风格,应用于Dock栏、应用图标以及桌面小部件等多个界面... 科技媒体 MACRumors 昨日(6 月 13 日)发布博文,报道称在 macOS 26 Tahoe 中

Python实现精准提取 PDF中的文本,表格与图片

《Python实现精准提取PDF中的文本,表格与图片》在实际的系统开发中,处理PDF文件不仅限于读取整页文本,还有提取文档中的表格数据,图片或特定区域的内容,下面我们来看看如何使用Python实... 目录安装 python 库提取 PDF 文本内容:获取整页文本与指定区域内容获取页面上的所有文本内容获取

SpringBoot服务获取Pod当前IP的两种方案

《SpringBoot服务获取Pod当前IP的两种方案》在Kubernetes集群中,SpringBoot服务获取Pod当前IP的方案主要有两种,通过环境变量注入或通过Java代码动态获取网络接口IP... 目录方案一:通过 Kubernetes Downward API 注入环境变量原理步骤方案二:通过

如何搭建并配置HTTPD文件服务及访问权限控制

《如何搭建并配置HTTPD文件服务及访问权限控制》:本文主要介绍如何搭建并配置HTTPD文件服务及访问权限控制的问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、安装HTTPD服务二、HTTPD服务目录结构三、配置修改四、服务启动五、基于用户访问权限控制六、

Python使用Tkinter打造一个完整的桌面应用

《Python使用Tkinter打造一个完整的桌面应用》在Python生态中,Tkinter就像一把瑞士军刀,它没有花哨的特效,却能快速搭建出实用的图形界面,作为Python自带的标准库,无需安装即可... 目录一、界面搭建:像搭积木一样组合控件二、菜单系统:给应用装上“控制中枢”三、事件驱动:让界面“活”

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

如何确定哪些软件是Mac系统自带的? Mac系统内置应用查看技巧

《如何确定哪些软件是Mac系统自带的?Mac系统内置应用查看技巧》如何确定哪些软件是Mac系统自带的?mac系统中有很多自带的应用,想要看看哪些是系统自带,该怎么查看呢?下面我们就来看看Mac系统内... 在MAC电脑上,可以使用以下方法来确定哪些软件是系统自带的:1.应用程序文件夹打开应用程序文件夹

SpringBoot整合Sa-Token实现RBAC权限模型的过程解析

《SpringBoot整合Sa-Token实现RBAC权限模型的过程解析》:本文主要介绍SpringBoot整合Sa-Token实现RBAC权限模型的过程解析,本文给大家介绍的非常详细,对大家的学... 目录前言一、基础概念1.1 RBAC模型核心概念1.2 Sa-Token核心功能1.3 环境准备二、表结

Python Flask 库及应用场景

《PythonFlask库及应用场景》Flask是Python生态中​轻量级且高度灵活的Web开发框架,基于WerkzeugWSGI工具库和Jinja2模板引擎构建,下面给大家介绍PythonFl... 目录一、Flask 库简介二、核心组件与架构三、常用函数与核心操作 ​1. 基础应用搭建​2. 路由与参

Spring Boot中的YML配置列表及应用小结

《SpringBoot中的YML配置列表及应用小结》在SpringBoot中使用YAML进行列表的配置不仅简洁明了,还能提高代码的可读性和可维护性,:本文主要介绍SpringBoot中的YML配... 目录YAML列表的基础语法在Spring Boot中的应用从YAML读取列表列表中的复杂对象其他注意事项总