中文拼写纠错(CSC)任务各个数据集汇总与简介

2023-12-04 10:44

本文主要是介绍中文拼写纠错(CSC)任务各个数据集汇总与简介,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 各数据集句子统计情况
  • 各数据集简介
    • CSCD-IME 数据集总结
    • Wang271K 数据集总结
    • SIGHAN
    • ECSpell(多领域)
    • LEMON(多领域)
    • MCSC

各数据集句子统计情况

Wang271KCSCD-IME(All)CSCD-IME(Train)CSCD-IME(Dev)CSCD-IME(Test)CSCD-IME(造的)
句子数量2713294000030000500050002,029,942
正确句子数量320215941621126862697265,316
错误句子数量2710091840613789231423031,764,626
最大句子长度140127127127123127
最小句子长度4111111111
平均句子长度42.5557.4327.3957.4557.6330.82
错字数量3819622022515143255425282,934,108
平均每句错字数量1.40.50.50.50.51.44
平均多少字一错字30113.58113.7112.4711421.3
含“他她它”错字的句子数量242856378113586
含“的地得”错字的句子数量2721384290405439395
“他她它”错字数数量244759399113597
“的地得”错字数量2773399301425639569
连续错字情况1: 346467
2: 17327
3: 387
1: 39925
2: 918
3: 15
4: 2
5: 1
1: 29967
2: 669
3: 12
4: 2
5: 1
1: 4989
2: 124
3: 1
1: 4969
2: 125
3: 2
1: 1,866,997
2: 603,174
3: 29,794
4: 8380
5: 494
SIGHAN(All Train)SIGHAN15(Train)SIGHAN14(Train)SIGHAN13(Train)SIGHAN15(Test)SIGHAN14(Test)SIGHAN13(Test)
句子数量647623393437700110010621000
正确句子数量5548311136055954229
错误句子数量592222563326340541520971
最大句子长度258171258112108150158
最小句子长度35375617
平均句子长度4231.2549.3741.5430.65074.3
错字数量6666254237813437037711224
平均每句错字数量111.10.490.640.7261.224
平均多少字一错字40.7828.7644.8884.7847.968.860.7
含“他她它”错字的句子数量15426128010271
含“的地得”错字的句子数量6022013965498710
“他她它”错字数数量15726131011311
“的地得”错字数量6082014025499411
连续错字情况1: 6223
2: 453
3: 25
4: 4
1: 2197
2: 194
3: 8
4: 4
1: 3325
2: 258
3: 17
1: 701
2: 1
1: 1139
2: 58
4: 1
3: 1
1: 1193
2: 47
3: 6
4: 2
1: 1249
2: 2

多领域CSC数据集

EC_LawEC_MedEC_Odwlemon_carlemon_enclemon_gamlemon_meclemon_newlemon_novlemon_cot
句子数量2460350022283245+1653272+162393+71942+1485887+56000993+33
正确句子数量1146180197116681682245103729462986552
错误句子数量1314169912571577159014890529413014441
最大句子长度1201271611983204107725634670
最小句子长度12111845203220
平均句子长度30.550.141.143.440.031.539.225.236.240.1
错字数量20712616198519101786164103232603415486
平均每句错字数量0.840.750.890.590.550.420.530.550.570.49
平均多少字一错字36.267.146.273.873.275.573.745.463.782.0
含“他她它”错字的句子数量10176220160
含“的地得”错字的句子数量75105845143904311
“他她它”错字数数量10186220160
“的地得”错字数量75116047174204311

有些数据集中存在异常样本(src和tgt长度不一致),因此使用+X的方式表示


医疗领域数据集

多领域CSC数据集

MCSC_TrainMCSC_DevMCSC_Test
句子数量157193+11965219650
正确句子数量7859298269825
错误句子数量7860198269825
最大句子长度524245
最小句子长度222
平均句子长度10.910.910.9
错字数量1465031835718286
平均每句错字数量0.930.930.93
平均多少字一错字11.711.711.7
含“他她它”错字的句子数量6484
含“的地得”错字的句子数量1561614
“他她它”错字数数量6484
“的地得”错字数量1561614

各数据集简介

CSCD-IME 数据集总结

论文地址: https://arxiv.org/pdf/2211.08788.pdf

论文代码: https://github.com/nghuyong/cscd-ime

论文代码有两个作用:

  1. 用于生成违数据集
  2. 对预测结果进行评价

作者知乎: https://zhuanlan.zhihu.com/p/586333153

数据集年份:2022-11

CSCD-IME全称:Chinese Spelling Correction Dataset for errors generated by pinyin IME

CSCD-IME数据集总结:

  1. 数据集只关注“拼音输入法”导致的错误
  2. 数据来源:经过认证的新闻媒体机构在微博上发布的博文(例如人民日报)
  3. 训练集:3w,验证集5k,测试集3k。均为人工标注
  4. 模拟“拼音输入法”导致的错误,构建了200w个违数据集。
  5. 该数据集会包含更多的“词”错误,例如:“鸡你太美”->“鸡你钛镁”,整个“钛镁”都是错的,这也符合实际情况,但这种纠错更难。

数据集链接:百度网盘 ,

数据集文件夹介绍:

--cscd-ime--data--cscd-ime--dev.tsv	# 验证集,5k条数据--test.tsv	# 测试集,5k条数据--train.tsv	# 训练集,3w条数据--all.tsv  # 全集,3w+5k+5k=4w条数据--lcsts-ime-2m--lcsts-ime-2m.tsv	# 200w条违数据--resource	# 生成违数据时要用的文件--char_4_gram.bin--pinyin_distance_matrix.pkl--predicts--bert_cscd.tsv  # bert的预测结果--bert_cscd_report.txt	# bert预测报告

Wang271K 数据集总结

论文地址: https://aclanthology.org/D18-1273/

论文代码: https://github.com/wdimmy/Automatic-Corpus-Generation

论文代码的作用:

  1. 用于生成违数据集

数据集年份:2018-10

Wang271K数据集总结:

  1. 该数据集主要用于训练模型,通常不作为测试集使用。
  2. 根据“形近似”和“音近似”两个方面替换一部分字符
  3. “形近似”错字构造方式:文本转图片->对部分字图片加噪音->使用OCR识别->得到形近似错字。
  4. “音近似”错字构造方式:句子转语音->语音转句子。
  5. 句子来源:人民日报网站

SIGHAN

数据集年份:2013,2014,2015

SIGHAN数据集总结:

  1. 外国人学中文时写的句子,内容偏生活

SIGHAN测试集的缺点:

  1. 不符合实际应用场景。因为是老外学中文写的语句,所以和实际中文拼写纠错的场景不一致。
  2. 语句不通顺,毕竟不是中国人写的。
  3. 大量的错误数据。对,即使是测试集,也有大量的错误数据。比如漏字、多字和错字的情况。
  4. 大量的重复数据。总共就1100句,很多句子都是相同的错误,比如“奴(女)生”就在好几句出现了。
  5. 测试集过少
  6. 从繁体翻译过来后,很多词汇或字不符合大陆习惯。

ECSpell(多领域)

论文地址:https://arxiv.org/pdf/2203.10929.pdf

论文代码:https://github.com/Aopolin-Lv/ECSpell

论文年份:2022-03

数据集地址:https://github.com/Aopolin-Lv/ECSpell/tree/main/Data

该作者提出了不同领域的CSC数据集,分布如下:

  • EC_Law:法律领域
  • EC_Med:医疗领域(medical treatment)
  • EC_Odw:官方文章写作(official document writing)

LEMON(多领域)

论文地址:https://arxiv.org/pdf/2305.17721.pdf

论文代码:https://github.com/gingasan/lemon

论文年份:2023-05

数据集链接:https://github.com/gingasan/lemon/tree/main/lemon_v2

该论文提出了6个领域的数据集:

  • lemon_car:汽车
  • lemon_enc:百科(encyclopedia)
  • lemon_gam:游戏(game)
  • lemon_mec:医疗照护(emdical care)
  • lemon_new:新闻(news)
  • lemon_nov:小说(novel)
  • lemon_cot:合同(contract)

MCSC

论文地址:https://arxiv.org/pdf/2210.11720.pdf

论文代码:https://github.com/yzhihao/MCSCSet

论文年份:2022-10

数据集链接:https://github.com/yzhihao/MCSCSet/tree/main/data/mcsc_benchmark_dataset

数据集特点:

  1. 医疗领域数据集
  2. 全是医学专家的人工标记
  3. 数据来源为腾讯医典
  4. 主要是一些医疗问题,例如“糖尿病如何治疗?”

这篇关于中文拼写纠错(CSC)任务各个数据集汇总与简介的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/453174

相关文章

MySQL 删除数据详解(最新整理)

《MySQL删除数据详解(最新整理)》:本文主要介绍MySQL删除数据的相关知识,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、前言二、mysql 中的三种删除方式1.DELETE语句✅ 基本语法: 示例:2.TRUNCATE语句✅ 基本语

Qt QCustomPlot库简介(最新推荐)

《QtQCustomPlot库简介(最新推荐)》QCustomPlot是一款基于Qt的高性能C++绘图库,专为二维数据可视化设计,它具有轻量级、实时处理百万级数据和多图层支持等特点,适用于科学计算、... 目录核心特性概览核心组件解析1.绘图核心 (QCustomPlot类)2.数据容器 (QCPDataC

Redis出现中文乱码的问题及解决

《Redis出现中文乱码的问题及解决》:本文主要介绍Redis出现中文乱码的问题及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1. 问题的产生2China编程. 问题的解决redihttp://www.chinasem.cns数据进制问题的解决中文乱码问题解决总结

MyBatisPlus如何优化千万级数据的CRUD

《MyBatisPlus如何优化千万级数据的CRUD》最近负责的一个项目,数据库表量级破千万,每次执行CRUD都像走钢丝,稍有不慎就引起数据库报警,本文就结合这个项目的实战经验,聊聊MyBatisPl... 目录背景一、MyBATis Plus 简介二、千万级数据的挑战三、优化 CRUD 的关键策略1. 查

python实现对数据公钥加密与私钥解密

《python实现对数据公钥加密与私钥解密》这篇文章主要为大家详细介绍了如何使用python实现对数据公钥加密与私钥解密,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录公钥私钥的生成使用公钥加密使用私钥解密公钥私钥的生成这一部分,使用python生成公钥与私钥,然后保存在两个文

mysql中的数据目录用法及说明

《mysql中的数据目录用法及说明》:本文主要介绍mysql中的数据目录用法及说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、背景2、版本3、数据目录4、总结1、背景安装mysql之后,在安装目录下会有一个data目录,我们创建的数据库、创建的表、插入的

Golang如何对cron进行二次封装实现指定时间执行定时任务

《Golang如何对cron进行二次封装实现指定时间执行定时任务》:本文主要介绍Golang如何对cron进行二次封装实现指定时间执行定时任务问题,具有很好的参考价值,希望对大家有所帮助,如有错误... 目录背景cron库下载代码示例【1】结构体定义【2】定时任务开启【3】使用示例【4】控制台输出总结背景

在Golang中实现定时任务的几种高效方法

《在Golang中实现定时任务的几种高效方法》本文将详细介绍在Golang中实现定时任务的几种高效方法,包括time包中的Ticker和Timer、第三方库cron的使用,以及基于channel和go... 目录背景介绍目的和范围预期读者文档结构概述术语表核心概念与联系故事引入核心概念解释核心概念之间的关系

springboot如何通过http动态操作xxl-job任务

《springboot如何通过http动态操作xxl-job任务》:本文主要介绍springboot如何通过http动态操作xxl-job任务的问题,具有很好的参考价值,希望对大家有所帮助,如有错... 目录springboot通过http动态操作xxl-job任务一、maven依赖二、配置文件三、xxl-

Navicat数据表的数据添加,删除及使用sql完成数据的添加过程

《Navicat数据表的数据添加,删除及使用sql完成数据的添加过程》:本文主要介绍Navicat数据表的数据添加,删除及使用sql完成数据的添加过程,具有很好的参考价值,希望对大家有所帮助,如有... 目录Navicat数据表数据添加,删除及使用sql完成数据添加选中操作的表则出现如下界面,查看左下角从左