AI工具-基于funasr打造离线语音转写工具

2024-09-05 23:28

本文主要是介绍AI工具-基于funasr打造离线语音转写工具,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【说在前面】

  • 该用例基于魔塔社区中发布的预训练模型和funasr构建。仅支持单声道、16KHz、16位采样wav语音文件的离线转写。
  • 过程中没有用到onnx模型
  • 不支持多线程的并发,但是可以基于多进程实现并发
  • asr工具构建过程中一定要加载vad,否则推理过程中内存会被撑爆

【预训练模型】

所有预训练模型均可在魔塔社区下载

  • asr:iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch
  • vad:iic/speech_fsmn_vad_zh-cn-16k-common-pytorch
  • punc:iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch
  • spk:iic/speech_campplus_sv_zh-cn_16k-common

工具构建

话不多说,直接上代码:

class ASRModel:def __init__(self):self.local_model_path = cfg["model"]["local_path"]self.input_batch_size = cfg["model"]["input_batch_size"] if "input_batch_size" \in cfg["model"] else 10# ASRself.model = self.local_model_path + "speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch"# voice activity detectionself.vad_model = self.local_model_path + "speech_fsmn_vad_zh-cn-16k-common-pytorch"# punctuation detectionself.punc_model = self.local_model_path + 'punc_ct-transformer_zh-cn-common-vocab272727-pytorch'# speaker separateself.spk_model = self.local_model_path + 'speech_campplus_sv_zh-cn_16k-common'self.asr_model = Nonedef load_model(self):self.asr_model = AutoModel(model=self.model,vad_model=self.vad_model,punc_model=self.punc_model,spk_model=self.spk_model,device="cuda:0")def generate(self, wav_file):if len(wav_file) < 0:return ""else:if self.asr_model is not None:asr_output = self.asr_model.generate(input=wav_path, batchsize=self.input_batch_size)return asr_output

上述核心代码基于funasr构建。可以根据自身需求自由组合vad、punc和spk。

这篇关于AI工具-基于funasr打造离线语音转写工具的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1140357

相关文章

Python实战之SEO优化自动化工具开发指南

《Python实战之SEO优化自动化工具开发指南》在数字化营销时代,搜索引擎优化(SEO)已成为网站获取流量的重要手段,本文将带您使用Python开发一套完整的SEO自动化工具,需要的可以了解下... 目录前言项目概述技术栈选择核心模块实现1. 关键词研究模块2. 网站技术seo检测模块3. 内容优化分析模

Java+AI驱动实现PDF文件数据提取与解析

《Java+AI驱动实现PDF文件数据提取与解析》本文将和大家分享一套基于AI的体检报告智能评估方案,详细介绍从PDF上传、内容提取到AI分析、数据存储的全流程自动化实现方法,感兴趣的可以了解下... 目录一、核心流程:从上传到评估的完整链路二、第一步:解析 PDF,提取体检报告内容1. 引入依赖2. 封装

Python利用GeoPandas打造一个交互式中国地图选择器

《Python利用GeoPandas打造一个交互式中国地图选择器》在数据分析和可视化领域,地图是展示地理信息的强大工具,被将使用Python、wxPython和GeoPandas构建的交互式中国地图行... 目录技术栈概览代码结构分析1. __init__ 方法:初始化与状态管理2. init_ui 方法:

MySQL慢查询工具的使用小结

《MySQL慢查询工具的使用小结》使用MySQL的慢查询工具可以帮助开发者识别和优化性能不佳的SQL查询,本文就来介绍一下MySQL的慢查询工具,具有一定的参考价值,感兴趣的可以了解一下... 目录一、启用慢查询日志1.1 编辑mysql配置文件1.2 重启MySQL服务二、配置动态参数(可选)三、分析慢查

基于Python实现进阶版PDF合并/拆分工具

《基于Python实现进阶版PDF合并/拆分工具》在数字化时代,PDF文件已成为日常工作和学习中不可或缺的一部分,本文将详细介绍一款简单易用的PDF工具,帮助用户轻松完成PDF文件的合并与拆分操作... 目录工具概述环境准备界面说明合并PDF文件拆分PDF文件高级技巧常见问题完整源代码总结在数字化时代,PD

Python按照24个实用大方向精选的上千种工具库汇总整理

《Python按照24个实用大方向精选的上千种工具库汇总整理》本文整理了Python生态中近千个库,涵盖数据处理、图像处理、网络开发、Web框架、人工智能、科学计算、GUI工具、测试框架、环境管理等多... 目录1、数据处理文本处理特殊文本处理html/XML 解析文件处理配置文件处理文档相关日志管理日期和

使用Python开发一个Ditto剪贴板数据导出工具

《使用Python开发一个Ditto剪贴板数据导出工具》在日常工作中,我们经常需要处理大量的剪贴板数据,下面将介绍如何使用Python的wxPython库开发一个图形化工具,实现从Ditto数据库中读... 目录前言运行结果项目需求分析技术选型核心功能实现1. Ditto数据库结构分析2. 数据库自动定位3

Spring AI使用tool Calling和MCP的示例详解

《SpringAI使用toolCalling和MCP的示例详解》SpringAI1.0.0.M6引入ToolCalling与MCP协议,提升AI与工具交互的扩展性与标准化,支持信息检索、行动执行等... 目录深入探索 Spring AI聊天接口示例Function CallingMCPSTDIOSSE结束语

基于Python实现简易视频剪辑工具

《基于Python实现简易视频剪辑工具》这篇文章主要为大家详细介绍了如何用Python打造一个功能完备的简易视频剪辑工具,包括视频文件导入与格式转换,基础剪辑操作,音频处理等功能,感兴趣的小伙伴可以了... 目录一、技术选型与环境搭建二、核心功能模块实现1. 视频基础操作2. 音频处理3. 特效与转场三、高

基于Python开发一个图像水印批量添加工具

《基于Python开发一个图像水印批量添加工具》在当今数字化内容爆炸式增长的时代,图像版权保护已成为创作者和企业的核心需求,本方案将详细介绍一个基于PythonPIL库的工业级图像水印解决方案,有需要... 目录一、系统架构设计1.1 整体处理流程1.2 类结构设计(扩展版本)二、核心算法深入解析2.1 自