NLP(四十八)文本纠错之获取形近字

2023-10-28 00:30

本文主要是介绍NLP(四十八)文本纠错之获取形近字,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

简介

  笔者最近在从事文本纠错的相关工作,颇有收获,因此记录于此。
  文本纠错很大一部分工作在于纠正同音字、形近字,所谓形近字,是指字形相近的汉字。本文将介绍如何获取形近字。
  获取形近字的算法如下:

  1. 获取汉字库,将所有汉字转化为黑白图片;
  2. 获取每个汉字的向量表示(即将图片转化为向量);
  3. 计算两个汉字的向量的余弦相似度,得到它们的字形相似度。

  下面将详细演示如何获取形近字。

获取形近字

  我们从网上得到3500个汉字的txt文件(all_3500_chars.txt),通过pygame将汉字转化为100*100的黑白图片,Python程序如下:

# -*- coding: utf-8 -*-
import pygamepygame.init()
# 获取3500个汉字
with open("all_3500_chars.txt", "r", encoding="utf-8") as f:chars = f.read().strip()# 通过pygame将汉字转化为黑白图片
for char in chars:font = pygame.font.Font("C://Windows/Fonts/simkai.ttf", 100)rtext = font.render(char, True, (0, 0, 0), (255, 255, 255))pygame.image.save(rtext, "{}.png".format(char))

前10个汉字为一乙二十丁厂七卜人入,其对应的黑白图片如下:

前10个汉字图片
  接着我们获取每个汉字的向量表示,并将这两个向量的余弦相似度作为对应汉字的余弦相似度,Python程序如下:

# -*- coding: utf-8 -*-
# get_similiar_char.py
import numpy as np
import cv2
import os
from operator import itemgetterdef read_img_2_list(img_path):# 读取图片img = cv2.imdecode(np.fromfile(img_path, dtype=np.uint8), -1)# 把图片转换为灰度模式img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY).reshape(-1, 1)return [_[0] for _ in img.tolist()]# 获取所有汉字的向量表示,以dict储存
def get_all_char_vectors():image_paths = [_ for _ in os.listdir(".") if _.endswith("png")]img_vector_dict = {}for image_path in image_paths:img_vector_dict[image_path[0]] = read_img_2_list(img_path=image_path)return img_vector_dict# 计算两个向量之间的余弦相似度
def cosine_similarity(vector1, vector2):dot_product = 0.0normA = 0.0normB = 0.0for a, b in zip(vector1, vector2):dot_product += a * bnormA += a ** 2normB += b ** 2if normA == 0.0 or normB == 0.0:return 0else:return dot_product / ((normA**0.5)*(normB**0.5))if __name__ == '__main__':img_vector_dict = get_all_char_vectors()# 获取最接近的汉字similarity_dict = {}while True:match_char = input("输入汉字: ")match_vector = img_vector_dict[match_char]for char, vector in img_vector_dict.items():cosine_similar = cosine_similarity(match_vector, vector)similarity_dict[char] = cosine_similar# 按相似度排序,取前10个sorted_similarity = sorted(similarity_dict.items(), key=itemgetter(1), reverse=True)print([(char, round(similarity, 4))for char, similarity in sorted_similarity[:10]])

我们尝试着输入国、填、博这三个字,得到的相近字形的汉字如下:

输入汉字: 国
[(‘国’, 1.0), (‘固’, 0.9493), (‘团’, 0.9432), (‘困’, 0.9405), (‘因’, 0.9369), (‘围’, 0.9357), (‘门’, 0.9334), (‘园’, 0.9326), (‘同’, 0.929), (‘圆’, 0.9261)]
输入汉字: 填
[(‘填’, 1.0), (‘慎’, 0.9522), (‘坞’, 0.9238), (‘培’, 0.9149), (‘坎’, 0.9133), (‘块’, 0.9101), (‘币’, 0.9092), (‘镇’, 0.9077), (‘埠’, 0.9074), (‘了’, 0.9044)]
输入汉字: 博
[(‘博’, 1.0), (‘傅’, 0.9306), (‘协’, 0.9115), (‘搏’, 0.907), (‘惰’, 0.9046), (‘膊’, 0.9029), (‘愕’, 0.9019), (‘侯’, 0.8999), (‘悴’, 0.8997), (‘怜’, 0.8989)]

opencv读取文件名为汉字的图片

  在使用opencv读物文件名为汉字的图片时,读取的图片内容为None,我们以一.png为例,演示程序如下:

# -*- coding: utf-8 -*-
import cv2image_path = "一.png"
img = cv2.imread(image_path, 1)
print(img, type(img))

输出结果为None <class 'NoneType'>。也就是说,opencv在读取带汉字的文件路径时会报错,解决办法如下:

# -*- coding: utf-8 -*-
import cv2
import numpy as npimage_path = "一.png"
img = cv2.imdecode(np.fromfile(image_path, dtype=np.uint8), -1)
print(img.shape, type(img))

输出结果为(100, 100, 3) <class 'numpy.ndarray'>

总结

  本文通过将汉字转化为图片,获取图片的向量表示来表征汉字,在获取形近字方面有着不错的效果。
  我们可以通过更复杂的图片相似度算法来增强获得更好的形近字能力。
  也有不少研究者,通过四角码、音形码等算法来获取形近字,取得了不错的效果。本文想法朴素,容易用程序实现,且效果也较为不错。
  后面将继续记录笔者在文本纠错方面的尝试,欢迎大家继续阅读~
  2021年6月29日于上海浦东,此日上海暑气逼人~

这篇关于NLP(四十八)文本纠错之获取形近字的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/289431

相关文章

C#如何在Excel文档中获取分页信息

《C#如何在Excel文档中获取分页信息》在日常工作中,我们经常需要处理大量的Excel数据,本文将深入探讨如何利用Spire.XLSfor.NET,高效准确地获取Excel文档中的分页信息,包括水平... 目录理解Excel中的分页机制借助 Spire.XLS for .NET 获取分页信息为什么选择 S

Python自动化提取多个Word文档的文本

《Python自动化提取多个Word文档的文本》在日常工作和学习中,我们经常需要处理大量的Word文档,本文将深入探讨如何利用Python批量提取Word文档中的文本内容,帮助你解放生产力,感兴趣的小... 目录为什么需要批量提取Word文档文本批量提取Word文本的核心技术与工具安装 Spire.Doc

springboot3.x使用@NacosValue无法获取配置信息的解决过程

《springboot3.x使用@NacosValue无法获取配置信息的解决过程》在SpringBoot3.x中升级Nacos依赖后,使用@NacosValue无法动态获取配置,通过引入SpringC... 目录一、python问题描述二、解决方案总结一、问题描述springboot从2android.x

springboot的controller中如何获取applicatim.yml的配置值

《springboot的controller中如何获取applicatim.yml的配置值》本文介绍了在SpringBoot的Controller中获取application.yml配置值的四种方式,... 目录1. 使用@Value注解(最常用)application.yml 配置Controller 中

golang实现nacos获取配置和服务注册-支持集群详解

《golang实现nacos获取配置和服务注册-支持集群详解》文章介绍了如何在Go语言中使用Nacos获取配置和服务注册,支持集群初始化,客户端结构体中的IpAddresses可以配置多个地址,新客户... 目录golang nacos获取配置和服务注册-支持集群初始化客户端可选参数配置new一个客户端 支

Python版本信息获取方法详解与实战

《Python版本信息获取方法详解与实战》在Python开发中,获取Python版本号是调试、兼容性检查和版本控制的重要基础操作,本文详细介绍了如何使用sys和platform模块获取Python的主... 目录1. python版本号获取基础2. 使用sys模块获取版本信息2.1 sys模块概述2.1.1

Java发送SNMP至交换机获取交换机状态实现方式

《Java发送SNMP至交换机获取交换机状态实现方式》文章介绍使用SNMP4J库(2.7.0)通过RCF1213-MIB协议获取交换机单/多路状态,需开启SNMP支持,重点对比SNMPv1、v2c、v... 目录交换机协议SNMP库获取交换机单路状态获取交换机多路状态总结交换机协议这里使用的交换机协议为常

MyBatis/MyBatis-Plus同事务循环调用存储过程获取主键重复问题分析及解决

《MyBatis/MyBatis-Plus同事务循环调用存储过程获取主键重复问题分析及解决》MyBatis默认开启一级缓存,同一事务中循环调用查询方法时会重复使用缓存数据,导致获取的序列主键值均为1,... 目录问题原因解决办法如果是存储过程总结问题myBATis有如下代码获取序列作为主键IdMappe

C#使用iText获取PDF的trailer数据的代码示例

《C#使用iText获取PDF的trailer数据的代码示例》开发程序debug的时候,看到了PDF有个trailer数据,挺有意思,于是考虑用代码把它读出来,那么就用到我们常用的iText框架了,所... 目录引言iText 核心概念C# 代码示例步骤 1: 确保已安装 iText步骤 2: C# 代码程

C++中处理文本数据char与string的终极对比指南

《C++中处理文本数据char与string的终极对比指南》在C++编程中char和string是两种用于处理字符数据的类型,但它们在使用方式和功能上有显著的不同,:本文主要介绍C++中处理文本数... 目录1. 基本定义与本质2. 内存管理3. 操作与功能4. 性能特点5. 使用场景6. 相互转换核心区别