Python处理英文文档(添加音标和翻译)

2023-11-20 22:20

本文主要是介绍Python处理英文文档(添加音标和翻译),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Python处理英文文档(添加音标和翻译)

  • Python处理英文文档
    • 单词标注音标
    • 英文翻译
    • 对word文档的操作
    • 方法整合
    • 待改进之处

Python处理英文文档

上英语课的时候老师总喜欢找人读文章和翻译文章,一点点的准备太浪费时间,就用Python写了一个简单的程序,实现从word文档读取文本,为复杂单词标注音标并以段落为单位进行翻译,然后保存成一个新的文档。

单词标注音标

调用Python工具库eng_to_ipa,直接pip install 安装,只需要一行代码就可以实现单词音标标注。

import eng_to_ipa as ipa
pronounce=ipa.convert("The idea of instructing computers in natural language has fascinated researchers for decades, as it promises to make the power
of computing more customizable and accessible to people without programming training")
print(pronounce)
#output
#ðə aɪˈdiə əv ˌɪnˈstrəktɪŋ kəmˈpjutərz ɪn ˈnæʧərəl ˈlæŋgwɪʤ həz ˈfæsəˌneɪtɪd ˈrisərʧərz fər ˈdɛkeɪdz, ɛz ɪt ˈprɑməsəz tɪ meɪk ðə paʊər əv kəmˈpjutɪŋ mɔr customizable* ənd ækˈsɛsəbəl tɪ ˈpipəl without* ˈproʊˌgræmɪŋ ˈtreɪnɪŋ
#有连字符或者特殊符号的单词无法正常翻译,但这种情况是少数

英文翻译

调用Python库translate,也是pip install 安装,两行代码实现英文翻译。(需要联网)

from translate import Translator
#英译中
translator=Translator(from_lang="en",to_lang="zh")
trans=translator.translate("The idea of instructing computers in natural language has fascinated researchers for decades, as it promises to make the power of computing more customizable and accessible to people without programming training")
#output
#几十年来,用自然语言教授计算机的想法一直吸引着研究人员,因为它有望使计算的力量更具可定制性和可访问性,让没有编程培训的人
#此种方法输入的最大字符长度为500

对word文档的操作

借助docx库可以实现对word文档的读取和写入,直接使用pip安装。

from docx import Document
doc = Document(path)
#读取段落
doc.paragraphs
#添加段落
doc.add_paragraph(save_para)

方法整合

借助上面所介绍的3个工具库可以实现目标功能,整合上面的3段代码,最后代码如下。

from docx import Document
from translate import Translator
translator=Translator(from_lang="en",to_lang="zh")
path = '../en_data/unit2.docx'
save_path="../en_data/unit2_trans.docx"
doc = Document(path)
save_doc=Document(save_path)
for paragraph in doc.paragraphs:#将句子切分为单词text=paragraph.text.split(" ")save_para=""save_trans_para=""#将句子切分,防止超出最大长度sentences=paragraph.text.split(".")print(sentences)for i in range(len(text)):#只对长度大于6的单词标注音标if len(text[i])<7:save_para=save_para+text[i]+" "else:save_para=save_para+text[i]+"["+ipa.convert(text[i])+"]"+" "save_doc.add_paragraph(save_para)for sentence in sentences:save_trans_para=save_trans_para+translator.translate(str(sentence))+"。"save_doc.add_paragraph(save_trans_para)save_doc.add_paragraph(" ")
save_doc.save(save_path)

最终保存的word文档效果如下图,基本满足日常学习的需求。
效果图

待改进之处

目前我认为存在的一个问题就是我只是用单词长度简单的区分了需要标注的单词和不需要标注的单词,这种方法有些过于草率,如果可以建立困难单词数据库的话,就能做到标注真正需要标注的单词。

这篇关于Python处理英文文档(添加音标和翻译)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/397836

相关文章

Python操作PDF文档的主流库使用指南

《Python操作PDF文档的主流库使用指南》PDF因其跨平台、格式固定的特性成为文档交换的标准,然而,由于其复杂的内部结构,程序化操作PDF一直是个挑战,本文主要为大家整理了Python操作PD... 目录一、 基础操作1.PyPDF2 (及其继任者 pypdf)2.PyMuPDF / fitz3.Fre

python设置环境变量路径实现过程

《python设置环境变量路径实现过程》本文介绍设置Python路径的多种方法:临时设置(Windows用`set`,Linux/macOS用`export`)、永久设置(系统属性或shell配置文件... 目录设置python路径的方法临时设置环境变量(适用于当前会话)永久设置环境变量(Windows系统

python中列表应用和扩展性实用详解

《python中列表应用和扩展性实用详解》文章介绍了Python列表的核心特性:有序数据集合,用[]定义,元素类型可不同,支持迭代、循环、切片,可执行增删改查、排序、推导式及嵌套操作,是常用的数据处理... 目录1、列表定义2、格式3、列表是可迭代对象4、列表的常见操作总结1、列表定义是处理一组有序项目的

python运用requests模拟浏览器发送请求过程

《python运用requests模拟浏览器发送请求过程》模拟浏览器请求可选用requests处理静态内容,selenium应对动态页面,playwright支持高级自动化,设置代理和超时参数,根据需... 目录使用requests库模拟浏览器请求使用selenium自动化浏览器操作使用playwright

python使用try函数详解

《python使用try函数详解》Pythontry语句用于异常处理,支持捕获特定/多种异常、else/final子句确保资源释放,结合with语句自动清理,可自定义异常及嵌套结构,灵活应对错误场景... 目录try 函数的基本语法捕获特定异常捕获多个异常使用 else 子句使用 finally 子句捕获所

Python极速搭建局域网文件共享服务器完整指南

《Python极速搭建局域网文件共享服务器完整指南》在办公室或家庭局域网中快速共享文件时,许多人会选择第三方工具或云存储服务,但这些方案往往存在隐私泄露风险或需要复杂配置,下面我们就来看看如何使用Py... 目录一、android基础版:HTTP文件共享的魔法命令1. 一行代码启动HTTP服务器2. 关键参

Python对接支付宝支付之使用AliPay实现的详细操作指南

《Python对接支付宝支付之使用AliPay实现的详细操作指南》支付宝没有提供PythonSDK,但是强大的github就有提供python-alipay-sdk,封装里很多复杂操作,使用这个我们就... 目录一、引言二、准备工作2.1 支付宝开放平台入驻与应用创建2.2 密钥生成与配置2.3 安装ali

Python获取浏览器Cookies的四种方式小结

《Python获取浏览器Cookies的四种方式小结》在进行Web应用程序测试和开发时,获取浏览器Cookies是一项重要任务,本文我们介绍四种用Python获取浏览器Cookies的方式,具有一定的... 目录什么是 Cookie?1.使用Selenium库获取浏览器Cookies2.使用浏览器开发者工具

springboot自定义注解RateLimiter限流注解技术文档详解

《springboot自定义注解RateLimiter限流注解技术文档详解》文章介绍了限流技术的概念、作用及实现方式,通过SpringAOP拦截方法、缓存存储计数器,结合注解、枚举、异常类等核心组件,... 目录什么是限流系统架构核心组件详解1. 限流注解 (@RateLimiter)2. 限流类型枚举 (

Python实现批量提取BLF文件时间戳

《Python实现批量提取BLF文件时间戳》BLF(BinaryLoggingFormat)作为Vector公司推出的CAN总线数据记录格式,被广泛用于存储车辆通信数据,本文将使用Python轻松提取... 目录一、为什么需要批量处理 BLF 文件二、核心代码解析:从文件遍历到数据导出1. 环境准备与依赖库