2021年山东大学软件学院暑期实训——骨刻文字数字化识别开发与学习笔记2

本文主要是介绍2021年山东大学软件学院暑期实训——骨刻文字数字化识别开发与学习笔记2,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

近期工作

  • 工作说明
  • 抽取甲骨文字库数据
    • 1、收集甲骨文-汉字比对大全表
    • 2、对甲骨文图片进行提取
    • 3、对甲骨文对应汉字进行提取
    • 4、对图片和汉字做对应
  • 抽取小篆字库数据
    • 1、获取简体字常用字库
    • 2、根据字库对网站进行爬取
      • 3、小篆字体收集结果

工作说明

目前的工作是为了建立甲骨文-汉字比对库,以及小篆-汉字比对库,故很自然就是要收集较为完整且干净的甲骨文、小篆数据。
针对甲骨文文字以及小篆文字的

抽取甲骨文字库数据

1、收集甲骨文-汉字比对大全表

下图为甲骨文对照表,共有1602个甲骨文图像以及对应的现代简体中文。且文件为pdf格式,目标是对里面甲骨文图片进行分割。
在这里插入图片描述

2、对甲骨文图片进行提取

这里主要用到的工具为python的fitz库,这个库可以通过正则表达式对pdf文件里面的图片元素进行提取。
关键代码为:

def transform(s_path, d_path):# 使用正则表达式来查找图片checkXO = r"/Type(?= */XObject)"checkIM = r"/Subtype(?= */Image)"# 打开pdfpdf_doc = fitz.open(s_path)# 图片计数imgcount = 0lenXREF = pdf_doc.xref_length()# 遍历每一个对象for i in range(1, lenXREF):# 定义对象字符串xref_text = pdf_doc.xref_object(i)isXObject = re.search(checkXO, xref_text)# 使用正则表达式查看是否是图片isImage = re.search(checkIM, text)# 如果不是对象也不是图片,则continueif not is XObject or not isImage:continueimgcount += 1# 根据索引生成图像pix = fitz.Pixmap(doc, i)

3、对甲骨文对应汉字进行提取

这里主要用到的工具为python的pdfplumber库,这个库可以通过正则表达式对pdf文件里面的图片元素进行提取。

import pdfplumbertotal_charactor_list =[]
# 利用pdfplumber多个提取表格
with pdfplumber.open('duizhaobiao.pdf') as pdf:#对每一页的pdf进行文字提取for page in pdf.pages:for table in page.extract_tables():#所提取出来的字符可能是简体字,可能是None、空字符、英文字符for character_list in table:for character in character_list:if character ==None or character=="":passelse:#判断是不是简体字if ord(character) not in range(65,90+1):total_charactor_list.append(character)

4、对图片和汉字做对应

由于暂时没有定好甲骨文图片的编号,故不能单独给图片以汉字命名(会出现重名)。对图片进行编号需要小篆字库确定再进行。
如图,文件夹中图片的顺序是与txt文件中的顺序对应的。
在这里插入图片描述
下一步准备将数据入库。

抽取小篆字库数据

由于网上所能收集到的小篆-简体字对照表比较难找,但是有提供根据汉字查找的功能,故选择下面古文字字源网站进行爬取。

1、获取简体字常用字库

简体字的常用字库大约有七千字左右,但不是每个现代汉字都有对应的小篆字体。

2、根据字库对网站进行爬取

这一步使用selenium对小篆数据进行截图,主要用到Python的PIL库和selenium库。
关键步骤在于①模拟浏览器操作,对某汉字进行搜索;②若存在对应小篆字体则进行截图。

        #模拟浏览器进行操作etymologySearchChar =driver.find_element_by_id("etymologySearchChar")etymologySearchChar.clear()#对某个字进行输入etymologySearchChar.send_keys(line[0])etymologySearchButton=driver.find_element_by_id("etymologySearchButton")etymologySearchButton.click()time.sleep(5)#找寻含有小篆字体的元素background_image =driver.find_elements_by_xpath('//div[@data-target="#etymologyModal"]')            for i in range(len(background_image)):time.sleep(0.1)#确定存储路径image =background_image[i]final_path =path+"\\"+image.text+'.png'#确定图片两个角的坐标left = image.location['x']+5top = image.location['y']right = image.location['x'] + image.size['width']-2bottom = image.location['y'] + image.size['height']-2driver.save_screenshot(final_path)#对图片进行截图photo = Image.open(final_path)photo = photo.crop((left, top, right, bottom))#存储截图photo.save(final_path)

3、小篆字体收集结果

可以看见有的文件夹是空的,证明该汉字并没有对应的小篆字体。等待下一步进行归类并放入数据库。
在这里插入图片描述

这篇关于2021年山东大学软件学院暑期实训——骨刻文字数字化识别开发与学习笔记2的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/638867

相关文章

Java使用Spire.Barcode for Java实现条形码生成与识别

《Java使用Spire.BarcodeforJava实现条形码生成与识别》在现代商业和技术领域,条形码无处不在,本教程将引导您深入了解如何在您的Java项目中利用Spire.Barcodefor... 目录1. Spire.Barcode for Java 简介与环境配置2. 使用 Spire.Barco

Python+wxPython开发一个文件属性比对工具

《Python+wxPython开发一个文件属性比对工具》在日常的文件管理工作中,我们经常会遇到同一个文件存在多个版本,或者需要验证备份文件与源文件是否一致,下面我们就来看看如何使用wxPython模... 目录引言项目背景与需求应用场景核心需求运行结果技术选型程序设计界面布局核心功能模块关键代码解析文件大

C++多线程开发环境配置方法

《C++多线程开发环境配置方法》文章详细介绍了如何在Windows上安装MinGW-w64和VSCode,并配置环境变量和编译任务,使用VSCode创建一个C++多线程测试项目,并通过配置tasks.... 目录下载安装 MinGW-w64下载安装VS code创建测试项目配置编译任务创建 tasks.js

一文详解Python如何开发游戏

《一文详解Python如何开发游戏》Python是一种非常流行的编程语言,也可以用来开发游戏模组,:本文主要介绍Python如何开发游戏的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下... 目录一、python简介二、Python 开发 2D 游戏的优劣势优势缺点三、Python 开发 3D

基于Python开发Windows自动更新控制工具

《基于Python开发Windows自动更新控制工具》在当今数字化时代,操作系统更新已成为计算机维护的重要组成部分,本文介绍一款基于Python和PyQt5的Windows自动更新控制工具,有需要的可... 目录设计原理与技术实现系统架构概述数学建模工具界面完整代码实现技术深度分析多层级控制理论服务层控制注

Java中的分布式系统开发基于 Zookeeper 与 Dubbo 的应用案例解析

《Java中的分布式系统开发基于Zookeeper与Dubbo的应用案例解析》本文将通过实际案例,带你走进基于Zookeeper与Dubbo的分布式系统开发,本文通过实例代码给大家介绍的非常详... 目录Java 中的分布式系统开发基于 Zookeeper 与 Dubbo 的应用案例一、分布式系统中的挑战二

如何正确识别一台POE交换机的好坏? 选购可靠的POE交换机注意事项

《如何正确识别一台POE交换机的好坏?选购可靠的POE交换机注意事项》POE技术已经历多年发展,广泛应用于安防监控和无线覆盖等领域,需求量大,但质量参差不齐,市场上POE交换机的品牌繁多,如何正确识... 目录生产标识1. 必须包含的信息2. 劣质设备的常见问题供电标准1. 正规的 POE 标准2. 劣质设

基于Go语言开发一个 IP 归属地查询接口工具

《基于Go语言开发一个IP归属地查询接口工具》在日常开发中,IP地址归属地查询是一个常见需求,本文将带大家使用Go语言快速开发一个IP归属地查询接口服务,有需要的小伙伴可以了解下... 目录功能目标技术栈项目结构核心代码(main.go)使用方法扩展功能总结在日常开发中,IP 地址归属地查询是一个常见需求:

基于 Cursor 开发 Spring Boot 项目详细攻略

《基于Cursor开发SpringBoot项目详细攻略》Cursor是集成GPT4、Claude3.5等LLM的VSCode类AI编程工具,支持SpringBoot项目开发全流程,涵盖环境配... 目录cursor是什么?基于 Cursor 开发 Spring Boot 项目完整指南1. 环境准备2. 创建

SpringBoot 多环境开发实战(从配置、管理与控制)

《SpringBoot多环境开发实战(从配置、管理与控制)》本文详解SpringBoot多环境配置,涵盖单文件YAML、多文件模式、MavenProfile分组及激活策略,通过优先级控制灵活切换环境... 目录一、多环境开发基础(单文件 YAML 版)(一)配置原理与优势(二)实操示例二、多环境开发多文件版