中文拼写纠错(CSC)任务各个数据集汇总与简介

2023-12-04 10:44

本文主要是介绍中文拼写纠错(CSC)任务各个数据集汇总与简介,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 各数据集句子统计情况
  • 各数据集简介
    • CSCD-IME 数据集总结
    • Wang271K 数据集总结
    • SIGHAN
    • ECSpell(多领域)
    • LEMON(多领域)
    • MCSC

各数据集句子统计情况

Wang271KCSCD-IME(All)CSCD-IME(Train)CSCD-IME(Dev)CSCD-IME(Test)CSCD-IME(造的)
句子数量2713294000030000500050002,029,942
正确句子数量320215941621126862697265,316
错误句子数量2710091840613789231423031,764,626
最大句子长度140127127127123127
最小句子长度4111111111
平均句子长度42.5557.4327.3957.4557.6330.82
错字数量3819622022515143255425282,934,108
平均每句错字数量1.40.50.50.50.51.44
平均多少字一错字30113.58113.7112.4711421.3
含“他她它”错字的句子数量242856378113586
含“的地得”错字的句子数量2721384290405439395
“他她它”错字数数量244759399113597
“的地得”错字数量2773399301425639569
连续错字情况1: 346467
2: 17327
3: 387
1: 39925
2: 918
3: 15
4: 2
5: 1
1: 29967
2: 669
3: 12
4: 2
5: 1
1: 4989
2: 124
3: 1
1: 4969
2: 125
3: 2
1: 1,866,997
2: 603,174
3: 29,794
4: 8380
5: 494
SIGHAN(All Train)SIGHAN15(Train)SIGHAN14(Train)SIGHAN13(Train)SIGHAN15(Test)SIGHAN14(Test)SIGHAN13(Test)
句子数量647623393437700110010621000
正确句子数量5548311136055954229
错误句子数量592222563326340541520971
最大句子长度258171258112108150158
最小句子长度35375617
平均句子长度4231.2549.3741.5430.65074.3
错字数量6666254237813437037711224
平均每句错字数量111.10.490.640.7261.224
平均多少字一错字40.7828.7644.8884.7847.968.860.7
含“他她它”错字的句子数量15426128010271
含“的地得”错字的句子数量6022013965498710
“他她它”错字数数量15726131011311
“的地得”错字数量6082014025499411
连续错字情况1: 6223
2: 453
3: 25
4: 4
1: 2197
2: 194
3: 8
4: 4
1: 3325
2: 258
3: 17
1: 701
2: 1
1: 1139
2: 58
4: 1
3: 1
1: 1193
2: 47
3: 6
4: 2
1: 1249
2: 2

多领域CSC数据集

EC_LawEC_MedEC_Odwlemon_carlemon_enclemon_gamlemon_meclemon_newlemon_novlemon_cot
句子数量2460350022283245+1653272+162393+71942+1485887+56000993+33
正确句子数量1146180197116681682245103729462986552
错误句子数量1314169912571577159014890529413014441
最大句子长度1201271611983204107725634670
最小句子长度12111845203220
平均句子长度30.550.141.143.440.031.539.225.236.240.1
错字数量20712616198519101786164103232603415486
平均每句错字数量0.840.750.890.590.550.420.530.550.570.49
平均多少字一错字36.267.146.273.873.275.573.745.463.782.0
含“他她它”错字的句子数量10176220160
含“的地得”错字的句子数量75105845143904311
“他她它”错字数数量10186220160
“的地得”错字数量75116047174204311

有些数据集中存在异常样本(src和tgt长度不一致),因此使用+X的方式表示


医疗领域数据集

多领域CSC数据集

MCSC_TrainMCSC_DevMCSC_Test
句子数量157193+11965219650
正确句子数量7859298269825
错误句子数量7860198269825
最大句子长度524245
最小句子长度222
平均句子长度10.910.910.9
错字数量1465031835718286
平均每句错字数量0.930.930.93
平均多少字一错字11.711.711.7
含“他她它”错字的句子数量6484
含“的地得”错字的句子数量1561614
“他她它”错字数数量6484
“的地得”错字数量1561614

各数据集简介

CSCD-IME 数据集总结

论文地址: https://arxiv.org/pdf/2211.08788.pdf

论文代码: https://github.com/nghuyong/cscd-ime

论文代码有两个作用:

  1. 用于生成违数据集
  2. 对预测结果进行评价

作者知乎: https://zhuanlan.zhihu.com/p/586333153

数据集年份:2022-11

CSCD-IME全称:Chinese Spelling Correction Dataset for errors generated by pinyin IME

CSCD-IME数据集总结:

  1. 数据集只关注“拼音输入法”导致的错误
  2. 数据来源:经过认证的新闻媒体机构在微博上发布的博文(例如人民日报)
  3. 训练集:3w,验证集5k,测试集3k。均为人工标注
  4. 模拟“拼音输入法”导致的错误,构建了200w个违数据集。
  5. 该数据集会包含更多的“词”错误,例如:“鸡你太美”->“鸡你钛镁”,整个“钛镁”都是错的,这也符合实际情况,但这种纠错更难。

数据集链接:百度网盘 ,

数据集文件夹介绍:

--cscd-ime--data--cscd-ime--dev.tsv	# 验证集,5k条数据--test.tsv	# 测试集,5k条数据--train.tsv	# 训练集,3w条数据--all.tsv  # 全集,3w+5k+5k=4w条数据--lcsts-ime-2m--lcsts-ime-2m.tsv	# 200w条违数据--resource	# 生成违数据时要用的文件--char_4_gram.bin--pinyin_distance_matrix.pkl--predicts--bert_cscd.tsv  # bert的预测结果--bert_cscd_report.txt	# bert预测报告

Wang271K 数据集总结

论文地址: https://aclanthology.org/D18-1273/

论文代码: https://github.com/wdimmy/Automatic-Corpus-Generation

论文代码的作用:

  1. 用于生成违数据集

数据集年份:2018-10

Wang271K数据集总结:

  1. 该数据集主要用于训练模型,通常不作为测试集使用。
  2. 根据“形近似”和“音近似”两个方面替换一部分字符
  3. “形近似”错字构造方式:文本转图片->对部分字图片加噪音->使用OCR识别->得到形近似错字。
  4. “音近似”错字构造方式:句子转语音->语音转句子。
  5. 句子来源:人民日报网站

SIGHAN

数据集年份:2013,2014,2015

SIGHAN数据集总结:

  1. 外国人学中文时写的句子,内容偏生活

SIGHAN测试集的缺点:

  1. 不符合实际应用场景。因为是老外学中文写的语句,所以和实际中文拼写纠错的场景不一致。
  2. 语句不通顺,毕竟不是中国人写的。
  3. 大量的错误数据。对,即使是测试集,也有大量的错误数据。比如漏字、多字和错字的情况。
  4. 大量的重复数据。总共就1100句,很多句子都是相同的错误,比如“奴(女)生”就在好几句出现了。
  5. 测试集过少
  6. 从繁体翻译过来后,很多词汇或字不符合大陆习惯。

ECSpell(多领域)

论文地址:https://arxiv.org/pdf/2203.10929.pdf

论文代码:https://github.com/Aopolin-Lv/ECSpell

论文年份:2022-03

数据集地址:https://github.com/Aopolin-Lv/ECSpell/tree/main/Data

该作者提出了不同领域的CSC数据集,分布如下:

  • EC_Law:法律领域
  • EC_Med:医疗领域(medical treatment)
  • EC_Odw:官方文章写作(official document writing)

LEMON(多领域)

论文地址:https://arxiv.org/pdf/2305.17721.pdf

论文代码:https://github.com/gingasan/lemon

论文年份:2023-05

数据集链接:https://github.com/gingasan/lemon/tree/main/lemon_v2

该论文提出了6个领域的数据集:

  • lemon_car:汽车
  • lemon_enc:百科(encyclopedia)
  • lemon_gam:游戏(game)
  • lemon_mec:医疗照护(emdical care)
  • lemon_new:新闻(news)
  • lemon_nov:小说(novel)
  • lemon_cot:合同(contract)

MCSC

论文地址:https://arxiv.org/pdf/2210.11720.pdf

论文代码:https://github.com/yzhihao/MCSCSet

论文年份:2022-10

数据集链接:https://github.com/yzhihao/MCSCSet/tree/main/data/mcsc_benchmark_dataset

数据集特点:

  1. 医疗领域数据集
  2. 全是医学专家的人工标记
  3. 数据来源为腾讯医典
  4. 主要是一些医疗问题,例如“糖尿病如何治疗?”

这篇关于中文拼写纠错(CSC)任务各个数据集汇总与简介的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/453174

相关文章

Linux下利用select实现串口数据读取过程

《Linux下利用select实现串口数据读取过程》文章介绍Linux中使用select、poll或epoll实现串口数据读取,通过I/O多路复用机制在数据到达时触发读取,避免持续轮询,示例代码展示设... 目录示例代码(使用select实现)代码解释总结在 linux 系统里,我们可以借助 select、

Java Docx4j类库简介及使用示例详解

《JavaDocx4j类库简介及使用示例详解》Docx4j是一个强大而灵活的Java库,非常适合需要自动化生成、处理、转换MicrosoftOffice文档的服务器端或后端应用,本文给大家介绍Jav... 目录1.简介2.安装与依赖3.基础用法示例3.1 创建一个新 DOCX 并添加内容3.2 读取一个已存

C#使用iText获取PDF的trailer数据的代码示例

《C#使用iText获取PDF的trailer数据的代码示例》开发程序debug的时候,看到了PDF有个trailer数据,挺有意思,于是考虑用代码把它读出来,那么就用到我们常用的iText框架了,所... 目录引言iText 核心概念C# 代码示例步骤 1: 确保已安装 iText步骤 2: C# 代码程

Pandas处理缺失数据的方式汇总

《Pandas处理缺失数据的方式汇总》许多教程中的数据与现实世界中的数据有很大不同,现实世界中的数据很少是干净且同质的,本文我们将讨论处理缺失数据的一些常规注意事项,了解Pandas如何表示缺失数据,... 目录缺失数据约定的权衡Pandas 中的缺失数据None 作为哨兵值NaN:缺失的数值数据Panda

C++中处理文本数据char与string的终极对比指南

《C++中处理文本数据char与string的终极对比指南》在C++编程中char和string是两种用于处理字符数据的类型,但它们在使用方式和功能上有显著的不同,:本文主要介绍C++中处理文本数... 目录1. 基本定义与本质2. 内存管理3. 操作与功能4. 性能特点5. 使用场景6. 相互转换核心区别

Spring定时任务之fixedRateString的实现示例

《Spring定时任务之fixedRateString的实现示例》本文主要介绍了Spring定时任务之fixedRateString的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录从毫秒到 Duration:为何要改变?核心:Java.time.Duration.parse

Oracle Scheduler任务故障诊断方法实战指南

《OracleScheduler任务故障诊断方法实战指南》Oracle数据库作为企业级应用中最常用的关系型数据库管理系统之一,偶尔会遇到各种故障和问题,:本文主要介绍OracleSchedul... 目录前言一、故障场景:当定时任务突然“消失”二、基础环境诊断:搭建“全局视角”1. 数据库实例与PDB状态2

python库pydantic数据验证和设置管理库的用途

《python库pydantic数据验证和设置管理库的用途》pydantic是一个用于数据验证和设置管理的Python库,它主要利用Python类型注解来定义数据模型的结构和验证规则,本文给大家介绍p... 目录主要特点和用途:Field数值验证参数总结pydantic 是一个让你能够 confidentl

Java中最全最基础的IO流概述和简介案例分析

《Java中最全最基础的IO流概述和简介案例分析》JavaIO流用于程序与外部设备的数据交互,分为字节流(InputStream/OutputStream)和字符流(Reader/Writer),处理... 目录IO流简介IO是什么应用场景IO流的分类流的超类类型字节文件流应用简介核心API文件输出流应用文

JAVA实现亿级千万级数据顺序导出的示例代码

《JAVA实现亿级千万级数据顺序导出的示例代码》本文主要介绍了JAVA实现亿级千万级数据顺序导出的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 前提:主要考虑控制内存占用空间,避免出现同时导出,导致主程序OOM问题。实现思路:A.启用线程池