真全!GitHub上出现了一个353种语言资源的汇总

2024-04-13 20:32

本文主要是介绍真全!GitHub上出现了一个353种语言资源的汇总,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

来源:AI科技评论本文约1200字,建议阅读5分钟随着AI技术的迅猛发展,机器翻译技术的出现让拯救濒危语言成为可能。

据联合国科教文组织统计

世上现存的7000+种语言,超过四百种濒临灭绝

全世界平均每两个星期就有一门语言彻底消失……

于是,有人看不下去了

他们在GitHub上开发了一个项目

专门对353种语言信息做了汇总及科普

并整理了20个可免费下载的平行语料资源库

他们说,要为保护全球濒危语言贡献一份力量

1 为什么要做这个项目?

研究显示,全球有近2500种语言处于濒危状态,在联合国绘制的《全球濒危语言分布图》中,代表着危机的红色标记几乎布满世界各地,濒危语言资源的保护工作迫在眉睫。

如图,排名前三位的国家分别是印度、美国和印度尼西亚,这些国家各有一百多种语言面临消亡的危险。

令人欣喜的是,随着AI技术的迅猛发展,机器翻译技术的出现让拯救濒危语言成为可能。

目前,有很多研究机构和非盈利组织都在做濒危语言的挽救工作,他们通过收集整理和汇总濒危语言的信息,让濒危语言以数字化的形式保存下来。很多机器翻译研究团队也展开了面向低资源语言的机器翻译技术研究,比如,有很多机构通过单语、双语等各种形式的平行数据,构建低资源语言机器翻译引擎,这也是对语言保护的一种特殊方式。

如上图所示,以我国为例,我国的濒危语言众多,但在国家大力保护下,许多仍处于留存状态(绿色部分),但也有大量语言濒临灭绝(红色部分),亟待拯救。

但是,即使是用上AI的力量,也只有200-300种语言能够呈现出来,还有很大一部分语言没有被数字化。因此,对濒危语言的留存与保护,是我们必须理性面对而不可回避的现实问题。

2 是什么样的资源?

目前,这个项目由小牛翻译团队发起,其中包含353种语言的ISO 639代码、语系、语族、书写字母、中文名称等信息,类似于一部“语言词典”,涵盖了世界上大部分的多数民族语言以及大量的少数民族语言。为方便使用者便捷地找到想要了解的语言信息,项目贴心地列出了语言的中英文名称。

值得一提的是,“语言词典”中包括还斯瓦西里语、乌尔都语等低资源语言,这不仅是对语言的科普,也是对保护濒危语言做出的一份贡献。

3 彩蛋

此外,他们还将来自CCMT、 WMT、 NIST、 IWSLT、WAT等机器翻译会议或机构的语言资源以及自行整理的20个多语/双语平行语料库(包括语料库所支持的语言、领域、数据量)的语言资源进行汇总,并从语种、语料库规模以及数据所属领域进行总结,并提供了资源的获取网址,便于研究者获取所需语种数据。

在这些语言中,包括一些尚未充分研究的语言,如达罗毗荼语系(Dravidian languages)泰米尔语(Tamil)(印度南部、斯里兰卡和新加坡语言)、泰卢固语(Telugu)和马拉雅拉姆语(Malayalam)(印度南部语言),以及尼日尔-刚果语系(Niger–Congo languages)斯瓦希里语(Swahili)和约鲁巴语(Yoruba)(非洲语言),可供人们开展语言研究、训练翻译模型、开发多语机器翻译系统之用。

如果你有兴趣,欢迎来访:

https://github.com/NiuTrans/LanguageCodes

编辑:文婧

这篇关于真全!GitHub上出现了一个353种语言资源的汇总的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/901142

相关文章

JAVA数组中五种常见排序方法整理汇总

《JAVA数组中五种常见排序方法整理汇总》本文给大家分享五种常用的Java数组排序方法整理,每种方法结合示例代码给大家介绍的非常详细,感兴趣的朋友跟随小编一起看看吧... 目录前言:法一:Arrays.sort()法二:冒泡排序法三:选择排序法四:反转排序法五:直接插入排序前言:几种常用的Java数组排序

Go语言使用slices包轻松实现排序功能

《Go语言使用slices包轻松实现排序功能》在Go语言开发中,对数据进行排序是常见的需求,Go1.18版本引入的slices包提供了简洁高效的排序解决方案,支持内置类型和用户自定义类型的排序操作,本... 目录一、内置类型排序:字符串与整数的应用1. 字符串切片排序2. 整数切片排序二、检查切片排序状态:

基于Go语言实现Base62编码的三种方式以及对比分析

《基于Go语言实现Base62编码的三种方式以及对比分析》Base62编码是一种在字符编码中使用62个字符的编码方式,在计算机科学中,,Go语言是一种静态类型、编译型语言,它由Google开发并开源,... 目录一、标准库现状与解决方案1. 标准库对比表2. 解决方案完整实现代码(含边界处理)二、关键实现细

如何合理管控Java语言的异常

《如何合理管控Java语言的异常》:本文主要介绍如何合理管控Java语言的异常问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、介绍2、Thorwable类3、Error4、Exception类4.1、检查异常4.2、运行时异常5、处理方式5.1. 捕获异常

C语言中的常见进制转换详解(从二进制到十六进制)

《C语言中的常见进制转换详解(从二进制到十六进制)》进制转换是计算机编程中的一个常见任务,特别是在处理低级别的数据操作时,C语言作为一门底层编程语言,在进制转换方面提供了灵活的操作方式,今天,我们将深... 目录1、进制基础2、C语言中的进制转换2.1 从十进制转换为其他进制十进制转二进制十进制转八进制十进

$在R语言中的作用示例小结

《$在R语言中的作用示例小结》在R语言中,$是一个非常重要的操作符,主要用于访问对象的成员或组件,它的用途非常广泛,不仅限于数据框(dataframe),还可以用于列表(list)、环境(enviro... 目录1. 访问数据框(data frame)中的列2. 访问列表(list)中的元素3. 访问jav

防止SpringBoot程序崩溃的几种方式汇总

《防止SpringBoot程序崩溃的几种方式汇总》本文总结了8种防止SpringBoot程序崩溃的方法,包括全局异常处理、try-catch、断路器、资源限制、监控、优雅停机、健康检查和数据库连接池配... 目录1. 全局异常处理2. 使用 try-catch 捕获异常3. 使用断路器4. 设置最大内存和线

Android实现定时任务的几种方式汇总(附源码)

《Android实现定时任务的几种方式汇总(附源码)》在Android应用中,定时任务(ScheduledTask)的需求几乎无处不在:从定时刷新数据、定时备份、定时推送通知,到夜间静默下载、循环执行... 目录一、项目介绍1. 背景与意义二、相关基础知识与系统约束三、方案一:Handler.postDel

Pandas中统计汇总可视化函数plot()的使用

《Pandas中统计汇总可视化函数plot()的使用》Pandas提供了许多强大的数据处理和分析功能,其中plot()函数就是其可视化功能的一个重要组成部分,本文主要介绍了Pandas中统计汇总可视化... 目录一、plot()函数简介二、plot()函数的基本用法三、plot()函数的参数详解四、使用pl

python获取网页表格的多种方法汇总

《python获取网页表格的多种方法汇总》我们在网页上看到很多的表格,如果要获取里面的数据或者转化成其他格式,就需要将表格获取下来并进行整理,在Python中,获取网页表格的方法有多种,下面就跟随小编... 目录1. 使用Pandas的read_html2. 使用BeautifulSoup和pandas3.