阿里达摩院:FunASR语音识别

2024-09-01 07:44

本文主要是介绍阿里达摩院:FunASR语音识别,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

阿里达摩院:FunASR语音识别

github:
https://github.com/modelscope/FunASR/

1 clone 代码到本地,切换到 FunASR/

git clone https://github.com/alibaba/FunASR.git && cd FunASR

2 虚拟环境

conda create -p ./venv python=3.12
conda activate ./venv

1 安装依赖

pip install torch
pip install torchaudio

2 安装 funasr

pip install -U funasr

或者

pip install -e ./

3 安装其它模块

pip install -U modelscope huggingface_hub

测试

1 下载模型
modelscope download --model iic/SenseVoiceSmall  --local_dir ./SenseVoiceSmall
modelscope download --model iic/speech_fsmn_vad_zh-cn-16k-common-pytorch  --local_dir ./speech_fsmn_vad_zh-cn-16k-common-pytorch
2 代码测试

在 FunASR/ 目录下创建 wmx_test 文件夹
FunASR/wmx_test/test.py :

from funasr import AutoModel
from funasr.utils.postprocess_utils import rich_transcription_postprocess# model_dir = "iic/SenseVoiceSmall"
model_dir = "./SenseVoiceSmall"
vad_model_dir = "./speech_fsmn_vad_zh-cn-16k-common-pytorch"# input_path="/media/wmx/soft1/AI-model/FunASR/asr_example_en.wav"
input_path="/media/wmx/soft1/AI-model/FunASR/vad_example.wav"model = AutoModel(model=model_dir,# vad_model="fsmn-vad",vad_model=vad_model_dir,vad_kwargs={"max_single_segment_time": 30000},# device="cuda:0",device="cpu",disable_update=True
)# en
res = model.generate(input=input_path,cache={},language="auto",  # "zn", "en", "yue", "ja", "ko", "nospeech"use_itn=True,batch_size_s=60,merge_vad=True,  #merge_length_s=15,
)
text = rich_transcription_postprocess(res[0]["text"])
print(text)

识别输出 :

试错的过程很简单而,且特别是今天报名仓雪卡的同学,你们可以。听到后面的有专门的活动课,他会大大降低你的试绸成本。其实你也可以过来听课,为什么你自己写嘛?我先今天写5个点,我就试试试验一下,反正这5个点不行,我再写5个点,这试再不行,那再写5个点嘛。你总会所谓的活动搭神和所谓的高手,都是只有一个把所有的错,所有的坑全部趟一遍,留下正确的你就是所谓的搭神。明白吗?所以说关于活动通过这块,我只送给你们四个字啊,换位思考。如果说你要想降低你的试错成本,今天来这里你们就是对的。因为有畅畅血卡这个机会,所以说关于活动过于不过这个问题,或者活动很难通过这个话题呃,如果真的要坐下来聊的话,要聊一天。但是我觉得我刚才说的四个字足够。好,谢谢。好,非常感谢那个三茂老师的回答啊。三茂老师说,我们在整个店铺的这个活动当中,我们要学会换位思考。其实

这篇关于阿里达摩院:FunASR语音识别的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1126342

相关文章

JS纯前端实现浏览器语音播报、朗读功能的完整代码

《JS纯前端实现浏览器语音播报、朗读功能的完整代码》在现代互联网的发展中,语音技术正逐渐成为改变用户体验的重要一环,下面:本文主要介绍JS纯前端实现浏览器语音播报、朗读功能的相关资料,文中通过代码... 目录一、朗读单条文本:① 语音自选参数,按钮控制语音:② 效果图:二、朗读多条文本:① 语音有默认值:②

linux配置podman阿里云容器镜像加速器详解

《linux配置podman阿里云容器镜像加速器详解》本文指导如何配置Podman使用阿里云容器镜像加速器:登录阿里云获取专属加速地址,修改Podman配置文件并移除https://前缀,最后拉取镜像... 目录1.下载podman2.获取阿里云个人容器镜像加速器地址3.更改podman配置文件4.使用po

如何正确识别一台POE交换机的好坏? 选购可靠的POE交换机注意事项

《如何正确识别一台POE交换机的好坏?选购可靠的POE交换机注意事项》POE技术已经历多年发展,广泛应用于安防监控和无线覆盖等领域,需求量大,但质量参差不齐,市场上POE交换机的品牌繁多,如何正确识... 目录生产标识1. 必须包含的信息2. 劣质设备的常见问题供电标准1. 正规的 POE 标准2. 劣质设

Python实现对阿里云OSS对象存储的操作详解

《Python实现对阿里云OSS对象存储的操作详解》这篇文章主要为大家详细介绍了Python实现对阿里云OSS对象存储的操作相关知识,包括连接,上传,下载,列举等功能,感兴趣的小伙伴可以了解下... 目录一、直接使用代码二、详细使用1. 环境准备2. 初始化配置3. bucket配置创建4. 文件上传到os

Python中图片与PDF识别文本(OCR)的全面指南

《Python中图片与PDF识别文本(OCR)的全面指南》在数据爆炸时代,80%的企业数据以非结构化形式存在,其中PDF和图像是最主要的载体,本文将深入探索Python中OCR技术如何将这些数字纸张转... 目录一、OCR技术核心原理二、python图像识别四大工具库1. Pytesseract - 经典O

Python基于微信OCR引擎实现高效图片文字识别

《Python基于微信OCR引擎实现高效图片文字识别》这篇文章主要为大家详细介绍了一款基于微信OCR引擎的图片文字识别桌面应用开发全过程,可以实现从图片拖拽识别到文字提取,感兴趣的小伙伴可以跟随小编一... 目录一、项目概述1.1 开发背景1.2 技术选型1.3 核心优势二、功能详解2.1 核心功能模块2.

Python验证码识别方式(使用pytesseract库)

《Python验证码识别方式(使用pytesseract库)》:本文主要介绍Python验证码识别方式(使用pytesseract库),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全... 目录1、安装Tesseract-OCR2、在python中使用3、本地图片识别4、结合playwrigh

Python中edge-tts实现便捷语音合成

《Python中edge-tts实现便捷语音合成》edge-tts是一个功能强大的Python库,支持多种语言和声音选项,本文主要介绍了Python中edge-tts实现便捷语音合成,具有一定的参考价... 目录安装与环境设置文本转语音查找音色更改语音参数生成音频与字幕总结edge-tts 是一个功能强大的

使用Python和PaddleOCR实现图文识别的代码和步骤

《使用Python和PaddleOCR实现图文识别的代码和步骤》在当今数字化时代,图文识别技术的应用越来越广泛,如文档数字化、信息提取等,PaddleOCR是百度开源的一款强大的OCR工具包,它集成了... 目录一、引言二、环境准备2.1 安装 python2.2 安装 PaddlePaddle2.3 安装

springboot整合阿里云百炼DeepSeek实现sse流式打印的操作方法

《springboot整合阿里云百炼DeepSeek实现sse流式打印的操作方法》:本文主要介绍springboot整合阿里云百炼DeepSeek实现sse流式打印,本文给大家介绍的非常详细,对大... 目录1.开通阿里云百炼,获取到key2.新建SpringBoot项目3.工具类4.启动类5.测试类6.测