深蓝词库转换1.3版本发布——增强单词注音功能

2024-02-08 23:58

本文主要是介绍深蓝词库转换1.3版本发布——增强单词注音功能,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

“深蓝词库转换”是我在闲暇时写的一个词库转换程序,实现了各种输入法的用户词库、网络词库(细胞词库)之间的相互转换。

目前支持的输入法有:

PC端:

*搜狗拼音

*QQ拼音

*QQ五笔(纯汉字)

*谷歌拼音

*搜狗五笔

*紫光拼音

*拼音加加

手机端:

*QQ手机拼音

*百度手机拼音 

由于工作和个人的原因,所以深蓝词库转换很久很久没有更新了,趁着这个国庆有时间,所以对该小程序做了下版本更新,主要更新的功能有:

1.增强了单词注音功能。

有些词库是只有汉字而完全没有拼音的词库,这种词库要转换成我们想要的词库,那么就会遇到一个多音字的问题,我以前的版本就是采用简单粗暴的办法来对付多音字,多音字直接使用一个默认注音,或者就干脆把所有多音字的拼音都显示出来,形成多个词条。

现在我对程序进行了改进,默认维护了一个多音字的词库,可以自动找到大部分多音字的正确读音。比如我们有以下这样一个词库需要转换:

音乐就是快乐
调和不能变调
我要骑我的坐骑
收藏的藏语书
刚正不阿的阿楠
子弹与弹簧
参与挖人参计划
三人行银行
曾经的曾国藩

使用1.3版的深蓝词库转换,将这个词库转换为搜狗拼音词库的界面如图所示:

image

从截图中可以看到,无论是“音乐”还是“快乐”,无论是“子弹”还是“弹簧”基本上都可以找到正确的读音。

2.外挂注音词库

能够实现上面正确注音是因为有一个默认的多音字注音词库,但是这个词库并不是很大很全,如果遇到一些没有维护在其中的多音字词,那么系统就会采用默认的拼音,那么就有可能是错误的。比如我们在维护一个关于各种参的词库,词库内容是:

人参
花旗参
党参
沙参
西洋参
高丽参

转换的结果如图所示:

image

我们可以发现,第二个词“花旗参”的注音错误了,因为系统自带注音库中没有找到这个词,所以采用了默认的注音“can”,对于这种发现的注音错误,我们可以自己维护一个注音库,命名为“pinyin.txt”,放在该转换程序的同一个目录下,然后从新运行该词库,系统将会使用这个注音库中的词。这个注音库的格式采用搜狗拼音输入法的txt词库导出格式,一个词一行。在pinyin.txt中输入“'hua'qi'shen 花旗参”并保存,重新运行该程序,可以得到我们想要的结果:

image

3.不显示转换后的结果,直接导出。

在进行大批量数据的词库转换时,有一个性能上的问题,就是将几十万或者几百万条词条显示在下面的文本框中会非常消耗资源,其实这个显示是没有必要的,我们可以直接导出转换后的词库到硬盘上即可,而减少显示这个环节。

在“高级设置”菜单中选中“不显示结果,直接导出”这个选项:

image

然后再选择词库,点击“转换”按钮,即可直接导出词库。如图所示:

image

 

1.3版下载地址在此。

我一直将这个项目开源,您对源代码感兴趣可以查看,地址为http://code.google.com/p/imewlconverter/ 

另外,QQ分类词库(QPYD格式)我研究了一下,没有研究出来,不知道该怎么解析,希望有高手能够帮忙指点指点。如果能够把QQ分类词库给导出,那就更完美了。

这篇关于深蓝词库转换1.3版本发布——增强单词注音功能的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/692582

相关文章

Python版本与package版本兼容性检查方法总结

《Python版本与package版本兼容性检查方法总结》:本文主要介绍Python版本与package版本兼容性检查方法的相关资料,文中提供四种检查方法,分别是pip查询、conda管理、PyP... 目录引言为什么会出现兼容性问题方法一:用 pip 官方命令查询可用版本方法二:conda 管理包环境方法

使用EasyPoi快速导出Word文档功能的实现步骤

《使用EasyPoi快速导出Word文档功能的实现步骤》EasyPoi是一个基于ApachePOI的开源Java工具库,旨在简化Excel和Word文档的操作,本文将详细介绍如何使用EasyPoi快速... 目录一、准备工作1、引入依赖二、准备好一个word模版文件三、编写导出方法的工具类四、在Export

JS纯前端实现浏览器语音播报、朗读功能的完整代码

《JS纯前端实现浏览器语音播报、朗读功能的完整代码》在现代互联网的发展中,语音技术正逐渐成为改变用户体验的重要一环,下面:本文主要介绍JS纯前端实现浏览器语音播报、朗读功能的相关资料,文中通过代码... 目录一、朗读单条文本:① 语音自选参数,按钮控制语音:② 效果图:二、朗读多条文本:① 语音有默认值:②

Java轻松实现PDF转换为PDF/A的示例代码

《Java轻松实现PDF转换为PDF/A的示例代码》本文将深入探讨Java环境下,如何利用专业工具将PDF转换为PDF/A格式,为数字文档的永续保存提供可靠方案,文中的示例代码讲解详细,感兴趣的小伙伴... 目录为什么需要将PDF转换为PDF/A使用Spire.PDF for Java进行转换前的准备通过

C#实现高性能拍照与水印添加功能完整方案

《C#实现高性能拍照与水印添加功能完整方案》在工业检测、质量追溯等应用场景中,经常需要对产品进行拍照并添加相关信息水印,本文将详细介绍如何使用C#实现一个高性能的拍照和水印添加功能,包含完整的代码实现... 目录1. 概述2. 功能架构设计3. 核心代码实现python3.1 主拍照方法3.2 安全HBIT

录音功能在哪里? 电脑手机等设备打开录音功能的技巧

《录音功能在哪里?电脑手机等设备打开录音功能的技巧》很多时候我们需要使用录音功能,电脑和手机这些常用设备怎么使用录音功能呢?下面我们就来看看详细的教程... 我们在会议讨论、采访记录、课堂学习、灵感创作、法律取证、重要对话时,都可能有录音需求,便于留存关键信息。下面分享一下如何在电脑端和手机端上找到录音功能

Android实现图片浏览功能的示例详解(附带源码)

《Android实现图片浏览功能的示例详解(附带源码)》在许多应用中,都需要展示图片并支持用户进行浏览,本文主要为大家介绍了如何通过Android实现图片浏览功能,感兴趣的小伙伴可以跟随小编一起学习一... 目录一、项目背景详细介绍二、项目需求详细介绍三、相关技术详细介绍四、实现思路详细介绍五、完整实现代码

Python使用FastAPI实现大文件分片上传与断点续传功能

《Python使用FastAPI实现大文件分片上传与断点续传功能》大文件直传常遇到超时、网络抖动失败、失败后只能重传的问题,分片上传+断点续传可以把大文件拆成若干小块逐个上传,并在中断后从已完成分片继... 目录一、接口设计二、服务端实现(FastAPI)2.1 运行环境2.2 目录结构建议2.3 serv

Python一次性将指定版本所有包上传PyPI镜像解决方案

《Python一次性将指定版本所有包上传PyPI镜像解决方案》本文主要介绍了一个安全、完整、可离线部署的解决方案,用于一次性准备指定Python版本的所有包,然后导出到内网环境,感兴趣的小伙伴可以跟随... 目录为什么需要这个方案完整解决方案1. 项目目录结构2. 创建智能下载脚本3. 创建包清单生成脚本4

使用Python批量将.ncm格式的音频文件转换为.mp3格式的实战详解

《使用Python批量将.ncm格式的音频文件转换为.mp3格式的实战详解》本文详细介绍了如何使用Python通过ncmdump工具批量将.ncm音频转换为.mp3的步骤,包括安装、配置ffmpeg环... 目录1. 前言2. 安装 ncmdump3. 实现 .ncm 转 .mp34. 执行过程5. 执行结