【语音识别】搭建本地的语音转文字系统:FunASR(离线不联网即可使用)

本文主要是介绍【语音识别】搭建本地的语音转文字系统:FunASR(离线不联网即可使用),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

参考自:

  • 参考配置:FunASR/runtime/docs/SDK_advanced_guide_offline_zh.md at main · alibaba-damo-academy/FunASR (github.com)
  • 参考配置:FunASR/runtime/quick_start_zh.md at 861147c7308b91068ffa02724fdf74ee623a909e · alibaba-damo-academy/FunASR (github.com)
  • 参考运行命令:FunASR/runtime/python/websocket/README.md at 861147c7308b91068ffa02724fdf74ee623a909e · alibaba-damo-academy/FunASR (github.com)

阿里达摩院

服务端

安装 Docker

(过程省略)

下面步骤如果是在 Linux 需要以管理员方式执行命令,开头添加 sudo

docker 拉取镜像

docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.4

创建模型目录

mkdir -p ./funasr-runtime-resources/models

运行 docker 镜像

docker run -p 10095:10095 -it --privileged=true -v $PWD/funasr-runtime-resources/models:/workspace/models registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.4

启动服务

cd FunASR/runtimenohup bash run_server.sh \--download-model-dir /workspace/models \--vad-dir damo/speech_fsmn_vad_zh-cn-16k-common-onnx \--model-dir damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx  \--punc-dir damo/punc_ct-transformer_cn-en-common-vocab471067-large-onnx \--lm-dir damo/speech_ngram_lm_zh-cn-ai-wesp-fst \--itn-dir thuduj12/fst_itn_zh \--hotword /workspace/models/hotwords.txt > log.txt 2>&1 &# 如果您想关闭ssl,增加参数:--certfile 0
# 如果您想使用时间戳或者nn热词模型进行部署,请设置--model-dir为对应模型:
#   damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx(时间戳)
#   damo/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404-onnx(nn热词)
# 如果您想在服务端加载热词,请在宿主机文件./funasr-runtime-resources/models/hotwords.txt配置热词(docker映射地址为/workspace/models/hotwords.txt):
#   每行一个热词,格式(热词 权重):阿里巴巴 20(注:热词理论上无限制,但为了兼顾性能和效果,建议热词长度不超过10,个数不超过1k,权重1~100)

客户端

下载客户端测试工具

wget https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/sample/funasr_samples.tar.gz

解压上面链接下载的文件。比如我解压到目录 C:\Users\z\Documents\FunASR

解压所在目录下的 funasr_samples\samples 目录为不同类型的语言相关的使用文件

安装 FFMpeg

apt-get install -y ffmpeg  # ubuntu
# yum install -y ffmpeg    # centos
# brew install ffmpeg      # mac
# winget install ffmpeg    # wins

HTML

解压进入目录:C:\Users\z\Documents\FunASR\funasr_samples\samples\html\static

打开 index.html 使用网页的形式进行操作

Python

下载 python

https://www.python.org/ftp/python/3.11.8/python-3.11.8-amd64.exe

pip 安装依赖库

pip install -U modelscope funasr -i https://mirror.sjtu.edu.cn/pypi/web/simple
pip install -U torchaudio websockets pyaudio ffmpeg-python -i https://mirror.sjtu.edu.cn/pypi/web/simple

运行客户端

# 这个目录取决于上面你解压的文件所在的目录
cd C:\Users\z\Documents\FunASR\runtime\python\websocket# 识别本地文件
python funasr_wss_client.py --host "127.0.0.1" --port 10095 --mode offline --audio_in "C:\Users\z\Videos\02d0b6703d9b5d6bc05a46548a938826_new.mp3"

我自己制作了一个使用 python 脚本运行处理的工具,可以下载使用。

下载链接中的 rar 解压后使用: https://github.com/LaoDie1/Godot-FunASR-UI/releases

在这里插入图片描述


更多内容和文档,详见:alibaba-damo-academy/FunASR (github.com)

这篇关于【语音识别】搭建本地的语音转文字系统:FunASR(离线不联网即可使用)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/942993

相关文章

Numpy Pandas Pyplot的基本使用

Numpy 数组 创建数组 numpy中的数组叫array import numpy as np a = np.array([2,4,8,20,16,30])#嵌套元组创建二维数组b = np.array(((1,2,3,4,5),(6,7,8,9,10),(10,9,1,2,3),(4,5,6,8,9.0))) 创建数组的方法: array根据给出的数据创建 arange

手把手教你从零搭建和部署自己的个人博客

引言 1 为什么要搭建自己的个人博客 工作和学习过程中,我们经常遇到一些这样或那样的问题,此时我们可能会在网上找到相应的解决方法。但是过了一段时间之后,当我们再次碰到类似的问题时,早已忘记以前是怎么解决的了,于是又要到网上去搜,浪费大量的时间和精力。面对这些重复的问题,我们为什么不能把它们记录下来呢? 在我看来,搭建自己的个人博客主要有以下好处:       •  有助于养成归纳总结的习惯,帮

利用 Python 深度学习识别滑动验证码缺口

“ 阅读本文大概需要 5 分钟。 ” 在前面写过一篇文章介绍深度学习识别滑动验证码缺口的文章《利用深度学习识别滑动验证码缺口位置》,在这篇文章里,我们使用华为云 ModelArts 轻松完成了滑动验证码缺口的识别。但是那种实现方案依赖于现有服务,是华为云提供的深度学习平台所搭建的识别模型,其实其内部是用的深度学习的某种目标检测算法实现的,如果利用平台的话,我们无需去申请 GPU、无需去了解其内

摸鱼大数据——Linux搭建大数据环境(Hadoop集群的web-ui和安装Hive)四

集群web-ui 一旦Hadoop集群启动并运行,可以通过web-ui进行集群查看,如下所述: 访问HDFS的NameNode主机 : http://192.168.88.101:9870/ 访问YARN的ResourceManager主机 : http://192.168.88.101:8088/ 注意: 想要上传文件夹需要配置本地域名映射 本地配置域名映射 如果在windows

VMware Workstation Pro 和 Fusion Pro 针对个人用户使用免费了

今早看到 VMware by Broadcom 官方博客 VMware Desktop Hypervisor Pro Apps Now Available for Personal Use - VMware Cloud Foundation (VCF) Blog 以及 Learn more about VMware Desktop Hypervisor Products Subscription

系统思考—团队学习

结束昨日435期JSTO“探索学习的新视界:硬核工具分享”,有伙伴分享的提升效率的AI工具,也有自我发现团队问题解决的工具,伙伴们都在各自的领域实践、吸收、反馈、复盘。这次的团队学习不仅是知识的传递,更是一场脑力激荡。 每次的JSTO的设计,我们底层都会使用《第五项修炼:学习型组织建立》的核心工具,通过系统思考,我们学会了如何在更广阔的框架内看待问题,将孤立的知识点串联成有机的整体。每个分享不只

奇技淫巧:在 ssh 里面把服务器的文本复制到本地电脑

“ 阅读本文大概需要 2 分钟。 ” 使用 macOS 的同学,应该熟悉一个命令pbcopy,它可以在命令行中把一段内容写入到剪贴板,例如: echo "kingname" | pbcopy 就能把字符串kingname复制到剪贴板里面。我们也可以使用这个方法把一个文件中的内容写入到剪贴板: cat xxx.txt | pbcopy 这样我们就不需要把文件打开再手动复制的。 有时候,我要把

【脚本】使用脚本备份docker中部署的mysql数据库

v1版本明文密码方式: #!/bin/bash# 定义 MySQL 容器名称和数据库信息container_name="mysql_container"db_user="root"db_password="your_password"# 定义要备份的数据库列表databases=("database1" "database2" "database3")# 定义备份文件保存路径back

【全开源】国际版JAVA同城服务美容美发到店服务上门服务系统源码支持Android+IOS+H5

国际版同城服务美容美发到店与上门服务系统:一站式打造美丽新体验 随着人们生活水平的提高和审美观念的升级,美容美发服务已成为人们日常生活中不可或缺的一部分。为了满足全球消费者的多样化需求,我们推出了“国际版同城服务美容美发到店与上门服务系统”,旨在为消费者提供便捷、高效、专业的美容美发服务。 一、系统概述 国际版同城服务美容美发到店与上门服务系统是一个集线上预约、到店服务、上门服务、会员管理等

Django使用

一、根目录下安装 pip install django 二、创建djiango项目 django-admin startproject 项目名称 三、创建app python manage.py startapp app名称 四、启动 python manage.py runserver 五、编写URL与视图关系,相对路径 1、manage.py(见资源绑定)  2、a