《Spelling Error Correction with Soft-Masked BERT》阅读记录

2024-02-03 18:50

本文主要是介绍《Spelling Error Correction with Soft-Masked BERT》阅读记录,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

《Spelling Error Correction with Soft-Masked BERT》

To be published at ACL 20202020.5.15

链接:https://arxiv.org/abs/2005.07421

摘要

彼时CSC的SOTA方法:在语言表示模型BERT的基础上,在句子的每个位置从候选词列表中选择一个字符进行纠正(包括不纠正)。

但这一方法能力不是最强悍的,因为BERT本身没有足够的能力来检测每个位置是否有错误,显然是由于使用掩码语言建模对其进行预训练的方式。

本文工作:提出了一个由错误检测网络基于BERT纠正错误网络的神经网络结构。

  • 二者使用本文所述的Soft-Masking(软遮蔽/软掩码)技术相连

Soft-masked BERT 也可用于其他语言

方法性能优于基线。

结论

提出了一种新的用于拼写错误校正的神经网络结构(主要是CSC上)——Soft-Masked BERT。

  • 检测网络识别给定句子中可能不正确的字符,并对字符进行软屏蔽(soft-mask)
  • 校正网络以软屏蔽字符为输入,对字符进行校正

软掩蔽技术是通用的,并且在其他检测-校正任务中可能有用

在两个数据集上的实验结果表明:软屏蔽BERT明显优于仅利用BERT的现有方法

未来工作

计划将Soft-Masked BERT扩展到其他问题,如语法错误纠正,并探索实现检测网络的其他可能性。

介绍

拼写检查任务

  • 在词级或字符级上,改正文章中的拼写错误 (Yu and Li, 2014; Y u et al., 2014; Zhang et al., 2015; Wang et al., 2018b; Hong et al., 2019; Wang et al., 2019)。

对很多自然语言应用起十分关键的作用,比如

  • 搜索 (Martins and Silva, 2004; Gao et al., 2010)
  • 光学字符识别 (Afliet al., 2016; Wang et al., 2018b)
  • 文章打分 (Burstein and Chodorow, 1999)

这篇文章在字符(character)级别上考虑中文拼写错误问题。

拼写错误纠正的难点

  1. 需要对世界的认识
  2. 一些错误需要推理

拼写错误纠正

  • 采用机器学习和深度学习 (Yu et al., 2014; Tseng et al., 2015; Wang et al., 2018b).

    • Zhang et al. (2015) 提供了一个CSC的统一框架:错误检测、候选词生成、最终候选选择(改错)使用传统机器学习。

    • Wang et al. (2019) 提供带

这篇关于《Spelling Error Correction with Soft-Masked BERT》阅读记录的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/675063

相关文章

java中pdf模版填充表单踩坑实战记录(itextPdf、openPdf、pdfbox)

《java中pdf模版填充表单踩坑实战记录(itextPdf、openPdf、pdfbox)》:本文主要介绍java中pdf模版填充表单踩坑的相关资料,OpenPDF、iText、PDFBox是三... 目录准备Pdf模版方法1:itextpdf7填充表单(1)加入依赖(2)代码(3)遇到的问题方法2:pd

Zabbix在MySQL性能监控方面的运用及最佳实践记录

《Zabbix在MySQL性能监控方面的运用及最佳实践记录》Zabbix通过自定义脚本和内置模板监控MySQL核心指标(连接、查询、资源、复制),支持自动发现多实例及告警通知,结合可视化仪表盘,可有效... 目录一、核心监控指标及配置1. 关键监控指标示例2. 配置方法二、自动发现与多实例管理1. 实践步骤

在Spring Boot中集成RabbitMQ的实战记录

《在SpringBoot中集成RabbitMQ的实战记录》本文介绍SpringBoot集成RabbitMQ的步骤,涵盖配置连接、消息发送与接收,并对比两种定义Exchange与队列的方式:手动声明(... 目录前言准备工作1. 安装 RabbitMQ2. 消息发送者(Producer)配置1. 创建 Spr

k8s上运行的mysql、mariadb数据库的备份记录(支持x86和arm两种架构)

《k8s上运行的mysql、mariadb数据库的备份记录(支持x86和arm两种架构)》本文记录在K8s上运行的MySQL/MariaDB备份方案,通过工具容器执行mysqldump,结合定时任务实... 目录前言一、获取需要备份的数据库的信息二、备份步骤1.准备工作(X86)1.准备工作(arm)2.手

SpringBoot3应用中集成和使用Spring Retry的实践记录

《SpringBoot3应用中集成和使用SpringRetry的实践记录》SpringRetry为SpringBoot3提供重试机制,支持注解和编程式两种方式,可配置重试策略与监听器,适用于临时性故... 目录1. 简介2. 环境准备3. 使用方式3.1 注解方式 基础使用自定义重试策略失败恢复机制注意事项

Python UV安装、升级、卸载详细步骤记录

《PythonUV安装、升级、卸载详细步骤记录》:本文主要介绍PythonUV安装、升级、卸载的详细步骤,uv是Astral推出的下一代Python包与项目管理器,主打单一可执行文件、极致性能... 目录安装检查升级设置自动补全卸载UV 命令总结 官方文档详见:https://docs.astral.sh/

统一返回JsonResult踩坑的记录

《统一返回JsonResult踩坑的记录》:本文主要介绍统一返回JsonResult踩坑的记录,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录统一返回jsonResult踩坑定义了一个统一返回类在使用时,JsonResult没有get/set方法时响应总结统一返回

Go学习记录之runtime包深入解析

《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,:本文主要介绍Go学习记录之runtime包的... 目录前言:一、runtime包内容学习1、作用:① Goroutine和并发控制:② 垃圾回收:③ 栈和

java对接海康摄像头的完整步骤记录

《java对接海康摄像头的完整步骤记录》在Java中调用海康威视摄像头通常需要使用海康威视提供的SDK,下面这篇文章主要给大家介绍了关于java对接海康摄像头的完整步骤,文中通过代码介绍的非常详细,需... 目录一、开发环境准备二、实现Java调用设备接口(一)加载动态链接库(二)结构体、接口重定义1.类型

apache的commons-pool2原理与使用实践记录

《apache的commons-pool2原理与使用实践记录》ApacheCommonsPool2是一个高效的对象池化框架,通过复用昂贵资源(如数据库连接、线程、网络连接)优化系统性能,这篇文章主... 目录一、核心原理与组件二、使用步骤详解(以数据库连接池为例)三、高级配置与优化四、典型应用场景五、注意事