中文拼写纠错(CSC)任务各个数据集汇总与简介

本文主要是介绍中文拼写纠错(CSC)任务各个数据集汇总与简介，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

各数据集句子统计情况
各数据集简介
- CSCD-IME 数据集总结
- Wang271K 数据集总结
- SIGHAN
- ECSpell（多领域）
- LEMON（多领域）
- MCSC

各数据集句子统计情况

	Wang271K	CSCD-IME(All)	CSCD-IME(Train)	CSCD-IME(Dev)	CSCD-IME(Test)	CSCD-IME(造的)
句子数量	271329	40000	30000	5000	5000	2,029,942
正确句子数量	320	21594	16211	2686	2697	265,316
错误句子数量	271009	18406	13789	2314	2303	1,764,626
最大句子长度	140	127	127	127	123	127
最小句子长度	4	11	11	11	11	1
平均句子长度	42.55	57.43	27.39	57.45	57.63	30.82
错字数量	381962	20225	15143	2554	2528	2,934,108
平均每句错字数量	1.4	0.5	0.5	0.5	0.5	1.44
平均多少字一错字	30	113.58	113.7	112.47	114	21.3
含“他她它”错字的句子数量	2428	56	37	8	11	3586
含“的地得”错字的句子数量	2721	384	290	40	54	39395
“他她它”错字数数量	2447	59	39	9	11	3597
“的地得”错字数量	2773	399	301	42	56	39569
连续错字情况	1: 346467 2: 17327 3: 387	1: 39925 2: 918 3: 15 4: 2 5: 1	1: 29967 2: 669 3: 12 4: 2 5: 1	1: 4989 2: 124 3: 1	1: 4969 2: 125 3: 2	1: 1,866,997 2: 603,174 3: 29,794 4: 8380 5: 494 …

	SIGHAN(All Train)	SIGHAN15(Train)	SIGHAN14(Train)	SIGHAN13(Train)	SIGHAN15(Test)	SIGHAN14(Test)	SIGHAN13(Test)
句子数量	6476	2339	3437	700	1100	1062	1000
正确句子数量	554	83	111	360	559	542	29
错误句子数量	5922	2256	3326	340	541	520	971
最大句子长度	258	171	258	112	108	150	158
最小句子长度	3	5	3	7	5	6	17
平均句子长度	42	31.25	49.37	41.54	30.6	50	74.3
错字数量	6666	2542	3781	343	703	771	1224
平均每句错字数量	1	1	1.1	0.49	0.64	0.726	1.224
平均多少字一错字	40.78	28.76	44.88	84.78	47.9	68.8	60.7
含“他她它”错字的句子数量	154	26	128	0	10	27	1
含“的地得”错字的句子数量	602	201	396	5	49	87	10
“他她它”错字数数量	157	26	131	0	11	31	1
“的地得”错字数量	608	201	402	5	49	94	11
连续错字情况	1: 6223 2: 453 3: 25 4: 4	1: 2197 2: 194 3: 8 4: 4	1: 3325 2: 258 3: 17	1: 701 2: 1	1: 1139 2: 58 4: 1 3: 1	1: 1193 2: 47 3: 6 4: 2	1: 1249 2: 2

多领域CSC数据集

	EC_Law	EC_Med	EC_Odw	lemon_car	lemon_enc	lemon_gam	lemon_mec	lemon_new	lemon_nov	lemon_cot
句子数量	2460	3500	2228	3245+165	3272+162	393+7	1942+148	5887+5	6000	993+33
正确句子数量	1146	1801	971	1668	1682	245	1037	2946	2986	552
错误句子数量	1314	1699	1257	1577	1590	148	905	2941	3014	441
最大句子长度	120	127	161	198	3204	107	72	56	346	70
最小句子长度	12	11	1	8	4	5	20	3	2	20
平均句子长度	30.5	50.1	41.1	43.4	40.0	31.5	39.2	25.2	36.2	40.1
错字数量	2071	2616	1985	1910	1786	164	1032	3260	3415	486
平均每句错字数量	0.84	0.75	0.89	0.59	0.55	0.42	0.53	0.55	0.57	0.49
平均多少字一错字	36.2	67.1	46.2	73.8	73.2	75.5	73.7	45.4	63.7	82.0
含“他她它”错字的句子数量	1	0	1	7	6	2	2	0	16	0
含“的地得”错字的句子数量	7	5	10	58	45	14	39	0	43	11
“他她它”错字数数量	1	0	1	8	6	2	2	0	16	0
“的地得”错字数量	7	5	11	60	47	17	42	0	43	11

有些数据集中存在异常样本（src和tgt长度不一致），因此使用+X的方式表示

医疗领域数据集

多领域CSC数据集

	MCSC_Train	MCSC_Dev	MCSC_Test
句子数量	157193+1	19652	19650
正确句子数量	78592	9826	9825
错误句子数量	78601	9826	9825
最大句子长度	52	42	45
最小句子长度	2	2	2
平均句子长度	10.9	10.9	10.9
错字数量	146503	18357	18286
平均每句错字数量	0.93	0.93	0.93
平均多少字一错字	11.7	11.7	11.7
含“他她它”错字的句子数量	64	8	4
含“的地得”错字的句子数量	156	16	14
“他她它”错字数数量	64	8	4
“的地得”错字数量	156	16	14

各数据集简介

CSCD-IME 数据集总结

论文地址: https://arxiv.org/pdf/2211.08788.pdf

论文代码: https://github.com/nghuyong/cscd-ime

论文代码有两个作用：

用于生成违数据集
对预测结果进行评价

作者知乎: https://zhuanlan.zhihu.com/p/586333153

数据集年份：2022-11

CSCD-IME全称：Chinese Spelling Correction Dataset for errors generated by pinyin IME

CSCD-IME数据集总结：

数据集只关注“拼音输入法”导致的错误
数据来源：经过认证的新闻媒体机构在微博上发布的博文（例如人民日报）
训练集：3w，验证集5k，测试集3k。均为人工标注
模拟“拼音输入法”导致的错误，构建了200w个违数据集。
该数据集会包含更多的“词”错误，例如：“鸡你太美”->“鸡你钛镁”，整个“钛镁”都是错的，这也符合实际情况，但这种纠错更难。

数据集链接：百度网盘，

数据集文件夹介绍：

--cscd-ime--data--cscd-ime--dev.tsv	# 验证集，5k条数据--test.tsv	# 测试集，5k条数据--train.tsv	# 训练集，3w条数据--all.tsv  # 全集，3w+5k+5k=4w条数据--lcsts-ime-2m--lcsts-ime-2m.tsv	# 200w条违数据--resource	# 生成违数据时要用的文件--char_4_gram.bin--pinyin_distance_matrix.pkl--predicts--bert_cscd.tsv  # bert的预测结果--bert_cscd_report.txt	# bert预测报告

Wang271K 数据集总结

论文地址: https://aclanthology.org/D18-1273/

论文代码: https://github.com/wdimmy/Automatic-Corpus-Generation

论文代码的作用：

用于生成违数据集

数据集年份：2018-10

Wang271K数据集总结：

该数据集主要用于训练模型，通常不作为测试集使用。
根据“形近似”和“音近似”两个方面替换一部分字符
“形近似”错字构造方式：文本转图片->对部分字图片加噪音->使用OCR识别->得到形近似错字。
“音近似”错字构造方式：句子转语音->语音转句子。
句子来源：人民日报网站

SIGHAN

数据集年份：2013，2014，2015

SIGHAN数据集总结：

外国人学中文时写的句子，内容偏生活

SIGHAN测试集的缺点：

不符合实际应用场景。因为是老外学中文写的语句，所以和实际中文拼写纠错的场景不一致。
语句不通顺，毕竟不是中国人写的。
大量的错误数据。对，即使是测试集，也有大量的错误数据。比如漏字、多字和错字的情况。
大量的重复数据。总共就1100句，很多句子都是相同的错误，比如“奴(女)生”就在好几句出现了。
测试集过少
从繁体翻译过来后，很多词汇或字不符合大陆习惯。

ECSpell（多领域）

论文地址：https://arxiv.org/pdf/2203.10929.pdf

论文代码：https://github.com/Aopolin-Lv/ECSpell

论文年份：2022-03

数据集地址：https://github.com/Aopolin-Lv/ECSpell/tree/main/Data

该作者提出了不同领域的CSC数据集，分布如下：

EC_Law：法律领域
EC_Med：医疗领域（medical treatment）
EC_Odw：官方文章写作（official document writing）

LEMON（多领域）

论文地址：https://arxiv.org/pdf/2305.17721.pdf

论文代码：https://github.com/gingasan/lemon

论文年份：2023-05

数据集链接：https://github.com/gingasan/lemon/tree/main/lemon_v2

该论文提出了6个领域的数据集：

lemon_car：汽车
lemon_enc：百科（encyclopedia）
lemon_gam：游戏（game）
lemon_mec：医疗照护（emdical care）
lemon_new：新闻（news）
lemon_nov：小说（novel）
lemon_cot：合同（contract）

MCSC

论文地址：https://arxiv.org/pdf/2210.11720.pdf

论文代码：https://github.com/yzhihao/MCSCSet

论文年份：2022-10

数据集链接：https://github.com/yzhihao/MCSCSet/tree/main/data/mcsc_benchmark_dataset

数据集特点：

医疗领域数据集
全是医学专家的人工标记
数据来源为腾讯医典
主要是一些医疗问题，例如“糖尿病如何治疗？”

这篇关于中文拼写纠错(CSC)任务各个数据集汇总与简介的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

中文拼写纠错(CSC)任务各个数据集汇总与简介

文章目录

各数据集句子统计情况

各数据集简介

CSCD-IME 数据集总结

Wang271K 数据集总结

SIGHAN

ECSpell（多领域）

LEMON（多领域）

MCSC

相关文章

Linux下利用select实现串口数据读取过程

Java Docx4j类库简介及使用示例详解

C#使用iText获取PDF的trailer数据的代码示例

Pandas处理缺失数据的方式汇总

C++中处理文本数据char与string的终极对比指南

Spring定时任务之fixedRateString的实现示例

Oracle Scheduler任务故障诊断方法实战指南

python库pydantic数据验证和设置管理库的用途

Java中最全最基础的IO流概述和简介案例分析

JAVA实现亿级千万级数据顺序导出的示例代码