史上最全开源中文 NLP 数据集:包括10大类、142条数据源,总有你钟意的那一款!

本文主要是介绍史上最全开源中文 NLP 数据集:包括10大类、142条数据源,总有你钟意的那一款!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

有了这个开源项目,再也不用担心找不到好用的中文 NLP 数据集,142 条数据集,总有适合你的那一款。

image

中文 NLP 数据集搜索:https://www.cluebenchmarks.com/dataSet_search.html

在学习 NLP 的这条不归路上,我们总会发现大多数先进算法与优质示例代码都是用英文数据集。而当我们满怀希望地把模型迁移到中文世界时,缺少公开的优质数据集简直就是天堑。比如说最简单的语言模型与词嵌入模型,只需要一段段自然的中文文本就行了,然而实际上我们会发现好用的公开大型语料真的很少。

我们需要在 GitHub 等平台上找收集中文 NLP 数据集的各种项目,再根据需求进行选择。值得注意的是,很多国内中文数据集已经非常老了,它们的使用会比较麻烦,这时候就需要我们自行判断与试错了。

不过在本文中,我们将介绍一项新的中文 NLP 数据搜索项目,它可能是目前最全的中文 NLP 数据集信息收集项目。该项目收集了一百多条中文 NLP 数据信息,并以搜索的形式展示结果。我们只要键入关键词,或者数据集所属的领域等信息,就能找到对应的数据集。image

每一条搜索结果都会展示数据集的基本信息、访问链接等关键信息,能帮助我们快速筛选数据集。因为每一个领域都能找到非常多的同类数据集,因此这些简述非常有意义。image
如果读者想看看到底有哪些数据集,可以直接查看该搜索项目的 GitHub 地址,所有数据集的信息都在上面。

这可能是最全的中文 NLP 数据集合

本项目中的 NLP 数据集囊括了 NER、QA、情感分析、文本分类、文本分配、文本摘要、机器翻译、知识图谱、语料库以及阅读理解等 10 大类共 142 个数据集。具体而言,对于每一个数据集,项目作者都提供了数据集名称、更新时间、数据集提供者、说明、关键字、类别以及论文地址等几方面的信息。

项目地址:https://github.com/CLUEbenchmark/CLUEDatasetSearchimage

本项目中文 NLP 数据集分类。

情感分析

作为自然语言处理(NLP)的一种常见应用,情感分析特别适用于以提取文本情感内容为目的的分类方法中。本项目中介绍了 11 个情感分析数据集来源,其中包括 NLPCC 2013/2014、Weibo Emotions Corpus、之江杯电商评论观点挖掘大赛以及 2019 搜狐校园算法大赛数据集。image

项目中部分情感分析中文数据集详情。*

文本分类

作为自然语言处理中最常用和最基础的应用,文本分类方面的数据集已经有很多。本项目中介绍了 19 个文本分类数据集来源,其中包括今日头条中文新闻(文本)分类、THUCNews 中文文本分类、2017 知乎看山杯机器学习挑战赛 以及中科大新闻分类语料库等。image
项目中部分文本分类数据集详情。

这篇关于史上最全开源中文 NLP 数据集:包括10大类、142条数据源,总有你钟意的那一款!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/688817

相关文章

Linux下利用select实现串口数据读取过程

《Linux下利用select实现串口数据读取过程》文章介绍Linux中使用select、poll或epoll实现串口数据读取,通过I/O多路复用机制在数据到达时触发读取,避免持续轮询,示例代码展示设... 目录示例代码(使用select实现)代码解释总结在 linux 系统里,我们可以借助 select、

全网最全Tomcat完全卸载重装教程小结

《全网最全Tomcat完全卸载重装教程小结》windows系统卸载Tomcat重新通过ZIP方式安装Tomcat,优点是灵活可控,适合开发者自定义配置,手动配置环境变量后,可通过命令行快速启动和管理... 目录一、完全卸载Tomcat1. 停止Tomcat服务2. 通过控制面板卸载3. 手动删除残留文件4.

C#使用iText获取PDF的trailer数据的代码示例

《C#使用iText获取PDF的trailer数据的代码示例》开发程序debug的时候,看到了PDF有个trailer数据,挺有意思,于是考虑用代码把它读出来,那么就用到我们常用的iText框架了,所... 目录引言iText 核心概念C# 代码示例步骤 1: 确保已安装 iText步骤 2: C# 代码程

Pandas处理缺失数据的方式汇总

《Pandas处理缺失数据的方式汇总》许多教程中的数据与现实世界中的数据有很大不同,现实世界中的数据很少是干净且同质的,本文我们将讨论处理缺失数据的一些常规注意事项,了解Pandas如何表示缺失数据,... 目录缺失数据约定的权衡Pandas 中的缺失数据None 作为哨兵值NaN:缺失的数值数据Panda

C++中处理文本数据char与string的终极对比指南

《C++中处理文本数据char与string的终极对比指南》在C++编程中char和string是两种用于处理字符数据的类型,但它们在使用方式和功能上有显著的不同,:本文主要介绍C++中处理文本数... 目录1. 基本定义与本质2. 内存管理3. 操作与功能4. 性能特点5. 使用场景6. 相互转换核心区别

python库pydantic数据验证和设置管理库的用途

《python库pydantic数据验证和设置管理库的用途》pydantic是一个用于数据验证和设置管理的Python库,它主要利用Python类型注解来定义数据模型的结构和验证规则,本文给大家介绍p... 目录主要特点和用途:Field数值验证参数总结pydantic 是一个让你能够 confidentl

Java中最全最基础的IO流概述和简介案例分析

《Java中最全最基础的IO流概述和简介案例分析》JavaIO流用于程序与外部设备的数据交互,分为字节流(InputStream/OutputStream)和字符流(Reader/Writer),处理... 目录IO流简介IO是什么应用场景IO流的分类流的超类类型字节文件流应用简介核心API文件输出流应用文

JAVA实现亿级千万级数据顺序导出的示例代码

《JAVA实现亿级千万级数据顺序导出的示例代码》本文主要介绍了JAVA实现亿级千万级数据顺序导出的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 前提:主要考虑控制内存占用空间,避免出现同时导出,导致主程序OOM问题。实现思路:A.启用线程池

Python实现中文大写金额转阿拉伯数字

《Python实现中文大写金额转阿拉伯数字》在财务票据中,中文大写金额被广泛使用以防止篡改,但在数据处理时,我们需要将其转换为阿拉伯数字形式,下面我们就来看看如何使用Python实现这一转换吧... 目录一、核心思路拆解二、中文数字解析实现三、大单位分割策略四、元角分综合处理五、测试验证六、全部代码在财务票

使用python制作一款文件粉碎工具

《使用python制作一款文件粉碎工具》这篇文章主要为大家详细介绍了如何使用python制作一款文件粉碎工具,能够有效粉碎密码文件和机密Excel表格等,感兴趣的小伙伴可以了解一下... 文件粉碎工具:适用于粉碎密码文件和机密的escel表格等等,主要作用就是防止 别人用数据恢复大师把你刚删除的机密的文件恢