NLP(四十八)文本纠错之获取形近字

2023-10-28 00:30

本文主要是介绍NLP(四十八)文本纠错之获取形近字,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

简介

  笔者最近在从事文本纠错的相关工作,颇有收获,因此记录于此。
  文本纠错很大一部分工作在于纠正同音字、形近字,所谓形近字,是指字形相近的汉字。本文将介绍如何获取形近字。
  获取形近字的算法如下:

  1. 获取汉字库,将所有汉字转化为黑白图片;
  2. 获取每个汉字的向量表示(即将图片转化为向量);
  3. 计算两个汉字的向量的余弦相似度,得到它们的字形相似度。

  下面将详细演示如何获取形近字。

获取形近字

  我们从网上得到3500个汉字的txt文件(all_3500_chars.txt),通过pygame将汉字转化为100*100的黑白图片,Python程序如下:

# -*- coding: utf-8 -*-
import pygamepygame.init()
# 获取3500个汉字
with open("all_3500_chars.txt", "r", encoding="utf-8") as f:chars = f.read().strip()# 通过pygame将汉字转化为黑白图片
for char in chars:font = pygame.font.Font("C://Windows/Fonts/simkai.ttf", 100)rtext = font.render(char, True, (0, 0, 0), (255, 255, 255))pygame.image.save(rtext, "{}.png".format(char))

前10个汉字为一乙二十丁厂七卜人入,其对应的黑白图片如下:

前10个汉字图片
  接着我们获取每个汉字的向量表示,并将这两个向量的余弦相似度作为对应汉字的余弦相似度,Python程序如下:

# -*- coding: utf-8 -*-
# get_similiar_char.py
import numpy as np
import cv2
import os
from operator import itemgetterdef read_img_2_list(img_path):# 读取图片img = cv2.imdecode(np.fromfile(img_path, dtype=np.uint8), -1)# 把图片转换为灰度模式img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY).reshape(-1, 1)return [_[0] for _ in img.tolist()]# 获取所有汉字的向量表示,以dict储存
def get_all_char_vectors():image_paths = [_ for _ in os.listdir(".") if _.endswith("png")]img_vector_dict = {}for image_path in image_paths:img_vector_dict[image_path[0]] = read_img_2_list(img_path=image_path)return img_vector_dict# 计算两个向量之间的余弦相似度
def cosine_similarity(vector1, vector2):dot_product = 0.0normA = 0.0normB = 0.0for a, b in zip(vector1, vector2):dot_product += a * bnormA += a ** 2normB += b ** 2if normA == 0.0 or normB == 0.0:return 0else:return dot_product / ((normA**0.5)*(normB**0.5))if __name__ == '__main__':img_vector_dict = get_all_char_vectors()# 获取最接近的汉字similarity_dict = {}while True:match_char = input("输入汉字: ")match_vector = img_vector_dict[match_char]for char, vector in img_vector_dict.items():cosine_similar = cosine_similarity(match_vector, vector)similarity_dict[char] = cosine_similar# 按相似度排序,取前10个sorted_similarity = sorted(similarity_dict.items(), key=itemgetter(1), reverse=True)print([(char, round(similarity, 4))for char, similarity in sorted_similarity[:10]])

我们尝试着输入国、填、博这三个字,得到的相近字形的汉字如下:

输入汉字: 国
[(‘国’, 1.0), (‘固’, 0.9493), (‘团’, 0.9432), (‘困’, 0.9405), (‘因’, 0.9369), (‘围’, 0.9357), (‘门’, 0.9334), (‘园’, 0.9326), (‘同’, 0.929), (‘圆’, 0.9261)]
输入汉字: 填
[(‘填’, 1.0), (‘慎’, 0.9522), (‘坞’, 0.9238), (‘培’, 0.9149), (‘坎’, 0.9133), (‘块’, 0.9101), (‘币’, 0.9092), (‘镇’, 0.9077), (‘埠’, 0.9074), (‘了’, 0.9044)]
输入汉字: 博
[(‘博’, 1.0), (‘傅’, 0.9306), (‘协’, 0.9115), (‘搏’, 0.907), (‘惰’, 0.9046), (‘膊’, 0.9029), (‘愕’, 0.9019), (‘侯’, 0.8999), (‘悴’, 0.8997), (‘怜’, 0.8989)]

opencv读取文件名为汉字的图片

  在使用opencv读物文件名为汉字的图片时,读取的图片内容为None,我们以一.png为例,演示程序如下:

# -*- coding: utf-8 -*-
import cv2image_path = "一.png"
img = cv2.imread(image_path, 1)
print(img, type(img))

输出结果为None <class 'NoneType'>。也就是说,opencv在读取带汉字的文件路径时会报错,解决办法如下:

# -*- coding: utf-8 -*-
import cv2
import numpy as npimage_path = "一.png"
img = cv2.imdecode(np.fromfile(image_path, dtype=np.uint8), -1)
print(img.shape, type(img))

输出结果为(100, 100, 3) <class 'numpy.ndarray'>

总结

  本文通过将汉字转化为图片,获取图片的向量表示来表征汉字,在获取形近字方面有着不错的效果。
  我们可以通过更复杂的图片相似度算法来增强获得更好的形近字能力。
  也有不少研究者,通过四角码、音形码等算法来获取形近字,取得了不错的效果。本文想法朴素,容易用程序实现,且效果也较为不错。
  后面将继续记录笔者在文本纠错方面的尝试,欢迎大家继续阅读~
  2021年6月29日于上海浦东,此日上海暑气逼人~

这篇关于NLP(四十八)文本纠错之获取形近字的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/289431

相关文章

Python中图片与PDF识别文本(OCR)的全面指南

《Python中图片与PDF识别文本(OCR)的全面指南》在数据爆炸时代,80%的企业数据以非结构化形式存在,其中PDF和图像是最主要的载体,本文将深入探索Python中OCR技术如何将这些数字纸张转... 目录一、OCR技术核心原理二、python图像识别四大工具库1. Pytesseract - 经典O

SpringMVC高效获取JavaBean对象指南

《SpringMVC高效获取JavaBean对象指南》SpringMVC通过数据绑定自动将请求参数映射到JavaBean,支持表单、URL及JSON数据,需用@ModelAttribute、@Requ... 目录Spring MVC 获取 JavaBean 对象指南核心机制:数据绑定实现步骤1. 定义 Ja

C++中RAII资源获取即初始化

《C++中RAII资源获取即初始化》RAII通过构造/析构自动管理资源生命周期,确保安全释放,本文就来介绍一下C++中的RAII技术及其应用,具有一定的参考价值,感兴趣的可以了解一下... 目录一、核心原理与机制二、标准库中的RAII实现三、自定义RAII类设计原则四、常见应用场景1. 内存管理2. 文件操

苹果macOS 26 Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色

《苹果macOS26Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色》在整体系统设计方面,macOS26采用了全新的玻璃质感视觉风格,应用于Dock栏、应用图标以及桌面小部件等多个界面... 科技媒体 MACRumors 昨日(6 月 13 日)发布博文,报道称在 macOS 26 Tahoe 中

Python实现精准提取 PDF中的文本,表格与图片

《Python实现精准提取PDF中的文本,表格与图片》在实际的系统开发中,处理PDF文件不仅限于读取整页文本,还有提取文档中的表格数据,图片或特定区域的内容,下面我们来看看如何使用Python实... 目录安装 python 库提取 PDF 文本内容:获取整页文本与指定区域内容获取页面上的所有文本内容获取

SpringBoot服务获取Pod当前IP的两种方案

《SpringBoot服务获取Pod当前IP的两种方案》在Kubernetes集群中,SpringBoot服务获取Pod当前IP的方案主要有两种,通过环境变量注入或通过Java代码动态获取网络接口IP... 目录方案一:通过 Kubernetes Downward API 注入环境变量原理步骤方案二:通过

使用Python实现获取屏幕像素颜色值

《使用Python实现获取屏幕像素颜色值》这篇文章主要为大家详细介绍了如何使用Python实现获取屏幕像素颜色值,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 一、一个小工具,按住F10键,颜色值会跟着显示。完整代码import tkinter as tkimport pyau

python获取cmd环境变量值的实现代码

《python获取cmd环境变量值的实现代码》:本文主要介绍在Python中获取命令行(cmd)环境变量的值,可以使用标准库中的os模块,需要的朋友可以参考下... 前言全局说明在执行py过程中,总要使用到系统环境变量一、说明1.1 环境:Windows 11 家庭版 24H2 26100.4061

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

使用Python获取JS加载的数据的多种实现方法

《使用Python获取JS加载的数据的多种实现方法》在当今的互联网时代,网页数据的动态加载已经成为一种常见的技术手段,许多现代网站通过JavaScript(JS)动态加载内容,这使得传统的静态网页爬取... 目录引言一、动态 网页与js加载数据的原理二、python爬取JS加载数据的方法(一)分析网络请求1