语料库技术与应用—基于维基百科构建日语平行语料并爬取谷歌翻译语音(mp3)

本文主要是介绍语料库技术与应用—基于维基百科构建日语平行语料并爬取谷歌翻译语音(mp3),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

准备:wikipedia-parallel-titles项目(老师给的)

          This document describes how to use these tools to build a parallel corpus (for a specific language pair) based on article titles across languages in Wikipedia.

          本文档描述了如何使用这些工具基于维基百科中不同语言的文章标题构建并行语料库(针对特定的语言对)。

首先第一步:

  1. 确定自己选的小语种的 639-1码, 例如 日语的 639-1码为 “ja”;
  2. 把 “ja” 与单词 “wiki”拼接得到 “jawiki”,

然后访问 http://dumps.wikimedia.org/jawiki ,如图:

可到” https://en.wikipedia.org/wiki/List_of_ISO_639-2_codes” 上查看自己选的小语种的639-1码

 

3.选择 “201903XX” 或 “latest” ,进去下载以 “-page.sql.gz” 和 “-langlinks.sql.gz” 结尾的两个压缩包;

4.提取并行标题语料:运行该脚本命令

 

并出现如图

1: 下载下来的两个.gz压缩包需和 build-corpus.sh 脚本在同一个路径下;

2: 若执行了脚本后 titles.txt 什么都没有并出现如图所示:

 

解决方法: 打开scripts目录下的 extract.pl 、utf8-normalize.sh 这两个文件,把其中的

“iconv -f utf8 -t utf8 –c” 语句 修改为 “iconv -f utf-8 -t utf-8 –c” (其他地方的”utf8”不用改)

4:生成 titles.txt 可能需要几分钟,请耐心等待。

 

 

出来是这个样子的。

步骤二:

把语料放到谷歌翻译上并下载其朗读语音

 

https://blog.csdn.net/qq_40224992/article/details/88546823

参考的是这篇文章,不过也需要作些修改。(感谢作者,不然就要动用按键精灵了)

日语的:

import requests
import os
from edf import ctx
myfile= open("titles.txt","r",encoding="utf-8")
wordlist=myfile.read().splitlines()
myfile.close()
log=open("log1.txt","a",encoding="utf-8")
for word in wordlist[25853:]:word=word.split("|||")[0]word=word.replace(" ","")if(os.path.exists("mp3/"+word+".mp3")):continueword2=wordprint(word2)word2=word.replace(" ","")word2 = word.replace("+", "")word2 = word.replace("-", "")url="https://translate.google.cn/translate_tts?ie=UTF-8&q="+word2+"&tl=ja&total=1&idx=0&textlen="+str(len(word2))+"&tk="+ctx.call("TL",word2)+"&client=webapp"print(url)try:newfile=open("mp3/"+word+".mp3","wb")print(url)context = requests.get(url,timeout = 3000)for data in context.iter_content(chunk_size=1024):if data:newfile.write(data)log.write(word+"\r\n")log.flush()newfile.close()except:log.write(word + "-wrong"+"\r\n")log.flush()continue
import execjsctx = execjs.compile(""" function TL(a) { var k = ""; var b = 406644; var b1 = 3293161072;       var jd = "."; var $b = "+-a^+6"; var Zb = "+-3^+b+-f";    for (var e = [], f = 0, g = 0; g < a.length; g++) { var m = a.charCodeAt(g); 128 > m ? e[f++] = m : (2048 > m ? e[f++] = m >> 6 | 192 : (55296 == (m & 64512) && g + 1 < a.length && 56320 == (a.charCodeAt(g + 1) & 64512) ? (m = 65536 + ((m & 1023) << 10) + (a.charCodeAt(++g) & 1023), e[f++] = m >> 18 | 240, e[f++] = m >> 12 & 63 | 128) : e[f++] = m >> 12 | 224, e[f++] = m >> 6 & 63 | 128), e[f++] = m & 63 | 128) } a = b; for (f = 0; f < e.length; f++) a += e[f], a = RL(a, $b); a = RL(a, Zb); a ^= b1 || 0; 0 > a && (a = (a & 2147483647) + 2147483648); a %= 1E6; return a.toString() + jd + (a ^ b) };      function RL(a, b) { var t = "a"; var Yb = "+"; for (var c = 0; c < b.length - 2; c += 3) { var d = b.charAt(c + 2), d = d >= t ? d.charCodeAt(0) - 87 : Number(d), d = b.charAt(c + 1) == Yb ? a >>> d: a << d; a = b.charAt(c) == Yb ? a + d & 4294967295 : a ^ d } return a }""")

说一下这个url如何找,谷歌浏览器:

谷歌翻译,在左侧输入日语,点击进入检查(F12),再点击发音那个按钮

 

右侧那个链接就是了。

最后mp3(女声):

到此,感觉这个项目sese的有没有。。。

总结:别再犯list[]01的错误!!!

总结:别再犯list[]01的错误!!!

总结:别再犯list[]01的错误!!!

第一个下标是0!!!

第一个下标是0!!!

第一个下标是0!!!

还有,文件夹要先创。

 

 

注:此项目的完成,需要感谢某位热心的同学的帮助。以及讨论中同学们的帮助和指点。

这篇关于语料库技术与应用—基于维基百科构建日语平行语料并爬取谷歌翻译语音(mp3)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/373319

相关文章

Java中的StringBuilder之如何高效构建字符串

《Java中的StringBuilder之如何高效构建字符串》本文将深入浅出地介绍StringBuilder的使用方法、性能优势以及相关字符串处理技术,结合代码示例帮助读者更好地理解和应用,希望对大家... 目录关键点什么是 StringBuilder?为什么需要 StringBuilder?如何使用 St

C语言中位操作的实际应用举例

《C语言中位操作的实际应用举例》:本文主要介绍C语言中位操作的实际应用,总结了位操作的使用场景,并指出了需要注意的问题,如可读性、平台依赖性和溢出风险,文中通过代码介绍的非常详细,需要的朋友可以参... 目录1. 嵌入式系统与硬件寄存器操作2. 网络协议解析3. 图像处理与颜色编码4. 高效处理布尔标志集合

Java中的Lambda表达式及其应用小结

《Java中的Lambda表达式及其应用小结》Java中的Lambda表达式是一项极具创新性的特性,它使得Java代码更加简洁和高效,尤其是在集合操作和并行处理方面,:本文主要介绍Java中的La... 目录前言1. 什么是Lambda表达式?2. Lambda表达式的基本语法例子1:最简单的Lambda表

Python结合PyWebView库打造跨平台桌面应用

《Python结合PyWebView库打造跨平台桌面应用》随着Web技术的发展,将HTML/CSS/JavaScript与Python结合构建桌面应用成为可能,本文将系统讲解如何使用PyWebView... 目录一、技术原理与优势分析1.1 架构原理1.2 核心优势二、开发环境搭建2.1 安装依赖2.2 验

Java字符串操作技巧之语法、示例与应用场景分析

《Java字符串操作技巧之语法、示例与应用场景分析》在Java算法题和日常开发中,字符串处理是必备的核心技能,本文全面梳理Java中字符串的常用操作语法,结合代码示例、应用场景和避坑指南,可快速掌握字... 目录引言1. 基础操作1.1 创建字符串1.2 获取长度1.3 访问字符2. 字符串处理2.1 子字

使用Python构建一个Hexo博客发布工具

《使用Python构建一个Hexo博客发布工具》虽然Hexo的命令行工具非常强大,但对于日常的博客撰写和发布过程,我总觉得缺少一个直观的图形界面来简化操作,下面我们就来看看如何使用Python构建一个... 目录引言Hexo博客系统简介设计需求技术选择代码实现主框架界面设计核心功能实现1. 发布文章2. 加

SpringShell命令行之交互式Shell应用开发方式

《SpringShell命令行之交互式Shell应用开发方式》本文将深入探讨SpringShell的核心特性、实现方式及应用场景,帮助开发者掌握这一强大工具,具有很好的参考价值,希望对大家有所帮助,如... 目录引言一、Spring Shell概述二、创建命令类三、命令参数处理四、命令分组与帮助系统五、自定

SpringBoot应用中出现的Full GC问题的场景与解决

《SpringBoot应用中出现的FullGC问题的场景与解决》这篇文章主要为大家详细介绍了SpringBoot应用中出现的FullGC问题的场景与解决方法,文中的示例代码讲解详细,感兴趣的小伙伴可... 目录Full GC的原理与触发条件原理触发条件对Spring Boot应用的影响示例代码优化建议结论F

MySQL 分区与分库分表策略应用小结

《MySQL分区与分库分表策略应用小结》在大数据量、复杂查询和高并发的应用场景下,单一数据库往往难以满足性能和扩展性的要求,本文将详细介绍这两种策略的基本概念、实现方法及优缺点,并通过实际案例展示如... 目录mysql 分区与分库分表策略1. 数据库水平拆分的背景2. MySQL 分区策略2.1 分区概念

Spring Shell 命令行实现交互式Shell应用开发

《SpringShell命令行实现交互式Shell应用开发》本文主要介绍了SpringShell命令行实现交互式Shell应用开发,能够帮助开发者快速构建功能丰富的命令行应用程序,具有一定的参考价... 目录引言一、Spring Shell概述二、创建命令类三、命令参数处理四、命令分组与帮助系统五、自定义S