python逻辑量有_用Python写几行代码,一分钟搞定一天工作量,同事直呼:好家伙!...

本文主要是介绍python逻辑量有_用Python写几行代码,一分钟搞定一天工作量,同事直呼:好家伙!...,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大家好,我是早起。

前几天有一个读者说最近要整理几千份文件,头都要整秃了,不知道能不能用Python解决,我们来看一下,你也可以思考一下。由于涉及文件私密所以具体内容已做脱敏处理。

大概是这样,一个文件夹下有多份会议通知信息(本文以 7 份文件为例)

format,png

每一份通知打开格式基本类似,如下所示👇

format,png

现在需要将每份会议文档中的 学习时间、学习内容、学习形式、主持人 四项关键信息提取出来,整理到 Excel 表格中:

format,png

在他真实需求中,会议通知四年积累下来有快 1000 份(四年开了这么多次会也是很厉害...),用人力挨个打开文件并录到 Excel 中工作量实在太大。

好家伙,这种重复的无聊工作, 不就是一份非常适合交给 Python 的自动化工作吗?我不允许我的粉丝还不会!

下面我们来看看如何用Python解决这个问题,主要将涉及:openpyxl 写入 Excel 文件

python-docx 读取 Word 文件

glob 批量获取文件路径

为了简化上面的需求,本文中需要获取的会议通知文件一共 7 个,分别命名为 会议通知1.docx 会议通知2.docx... 会议通知7.docx,存放在 Notice 文件夹下。输出的目标 Excel 文件命名为 Meeting_temp.xlsx

基本逻辑

写代码之前都先明确完整的问题需要分为几个小步骤实现。从需求中我们大概可以将代码分为以下几步:“获取会议通知 Notice 文件夹下的所有文件;

解析每一份 Word 文件,获取需要的四个信息,输出到 Excel 中;

保存 Excel 文件”

有了逻辑就有了写代码的思路了。第 1 步可以由 glob 库完成,后面两步就是操作 Word 的 python-docx 库和操作 Excel 的 openpyxl 库的交互协作了。

这两个库我们都有说过,如果你不熟悉,一定要先阅读下面的文章!

代码实现

首先导入需要的库:from docx import Document

from openpyxl import load_workbook

import glob

将模板 Excel 读取进程序:path  = r'C:\Users\xxx' # 路径为会议通知文件夹和 Excel 模板所在的位置,可按实际情况更改

workbook = load_workbook(path + r'\Meeting_temp.xlsx')

sheet = workbook.active

写任何批处理的代码之前都建议先写一下单次操作的代码,因此我们先完成对 会议通知 1.docx 文件的解析,确保无误。现在对于文档的结构和关键信息的位置尚不明确,可以先将 Word 以段落 Paragraph 为单位输出观察:wordfile = Document(path + r'\Notice\会议通知 1.docx')

for paragraph in wordfile.paragraphs:

    print(paragraph)format,png

文件的文字排布脉络比较清晰,基本是一句话对应一个段落,而需要的信息可以简单通过判断每句话(每段话)前几个字而明确:for paragraph in wordfile.paragraphs:

if paragraph.text[0:5] == '学习时间:':

study_time = paragraph.text[5:]

if paragraph.text[0:4] == '主持人:':

host = paragraph.text[4:]

if paragraph.text[0:5] == '学习形式:':

study_type = paragraph.text[5:]

对于学习内容的获取比较特殊,不像其他三个信息,都在一句话中,且关键字就为前几个字:

format,png

可以看到,“学习内容” 四个字和真正包含的内容分散在不同的句子中.

这里简单用一个策略:“

建立一个空列表存放,然后遍历每一段判断,如果一个字符为数字且第二个字符为中文顿号 “、” 就获取存放到列表中。最后把列表中的元素重新组合成一个长字符串即可:”content_lst = []

for paragraph in wordfile.paragraphs:

if paragraph.text[0:5] == '学习时间:':

study_time = paragraph.text[5:]

if paragraph.text[0:4] == '主持人:':

host = paragraph.text[4:]

if paragraph.text[0:5] == '学习形式:':

study_type = paragraph.text[5:]

if len(paragraph.text) >= 2:

if paragraph.text[0].isdigit() and paragraph.text[1] == '、':

content_lst.append(paragraph.text)

content = ' '.join(content_lst)

完成了解析 Word 文件之后,就需要把内容输出的 Excel 文件中了。

简单来说,就是将上面代码获取到的几个元素组合成一个列表,通过 sheet.append(list) 的方法写入 Excel 文件中:number = 0 # 全局中设置一个变量用于计数,做为序号输出

wordfile = Document(path + r'\Notice\会议通知 1.docx')

content_lst = []

for paragraph in wordfile.paragraphs:

if paragraph.text[0:5] == '学习时间:':

study_time = paragraph.text[5:]

if paragraph.text[0:4] == '主持人:':

host = paragraph.text[4:]

if paragraph.text[0:5] == '学习形式:':

study_type = paragraph.text[5:]

if len(paragraph.text) >= 2:

if paragraph.text[0].isdigit() and paragraph.text[1] == '、':

content_lst.append(paragraph.text)

content = ' '.join(content_lst)

number += 1

sheet.append([number, study_time, content, study_type, host])

单个文件解析完,用 glob 改完获取文件夹下全部文件,建立循环逐个解析就能完成本需求,当然最后记得保存 Excel 文件。

完整代码如下👇from docx import Document

from openpyxl import load_workbook

import glob

path  = r'C:\Users\xxx'

workbook = load_workbook(path + r'\Meeting_temp.xlsx')

sheet = workbook.active

number = 0

for file in glob.glob(path + r'\Notice\*.docx'):

wordfile = Document(file)

content_lst = []

for paragraph in wordfile.paragraphs:

if paragraph.text[0:5] == '学习时间:':

study_time = paragraph.text[5:]

if paragraph.text[0:4] == '主持人:':

host = paragraph.text[4:]

if paragraph.text[0:5] == '学习形式:':

study_type = paragraph.text[5:]

if len(paragraph.text) >= 2:

if paragraph.text[0].isdigit() and paragraph.text[1] == '、':

content_lst.append(paragraph.text)

content = ' '.join(content_lst)

number += 1

sheet.append([number, study_time, content, study_type, host])

workbook.save(path + r'\Meeting_notice.xlsx')

format,png

核心也不过三十行代码,总共不过三秒就搞定了!

如果你也想试试,可以在「早起Python」后台回复0118获取数据,并尝试用文中的代码实现。

本文的分享就到这里,如果喜欢本文的话,希望可以点赞、转发、在看支持早起,我们会在后续的办公自动化系列文章中分享更多实用的案例!-END-

format,png

文末给大家推荐一下狗熊会的深度学习笔记(作为一本以“笔记”命名的深度学习图书,主要定位是面向广大希望入门深度学习的初学者。本书以深度神经网络(DNN)、卷积神经网络(CNN)和循环神经网络(RNN)为核心,详细介绍了深度学习的理论基础、通用方法和三大网络的原理与实践。全书代码以Keras框架作为范例,对于初学者而言简单易懂),点击下方商品可以查看详情与购买!

这篇关于python逻辑量有_用Python写几行代码,一分钟搞定一天工作量,同事直呼:好家伙!...的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:https://blog.csdn.net/weixin_35798040/article/details/113519366
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/355271

相关文章

Conda与Python venv虚拟环境的区别与使用方法详解

《Conda与Pythonvenv虚拟环境的区别与使用方法详解》随着Python社区的成长,虚拟环境的概念和技术也在不断发展,:本文主要介绍Conda与Pythonvenv虚拟环境的区别与使用... 目录前言一、Conda 与 python venv 的核心区别1. Conda 的特点2. Python v

Python使用python-can实现合并BLF文件

《Python使用python-can实现合并BLF文件》python-can库是Python生态中专注于CAN总线通信与数据处理的强大工具,本文将使用python-can为BLF文件合并提供高效灵活... 目录一、python-can 库:CAN 数据处理的利器二、BLF 文件合并核心代码解析1. 基础合

Python使用OpenCV实现获取视频时长的小工具

《Python使用OpenCV实现获取视频时长的小工具》在处理视频数据时,获取视频的时长是一项常见且基础的需求,本文将详细介绍如何使用Python和OpenCV获取视频时长,并对每一行代码进行深入解析... 目录一、代码实现二、代码解析1. 导入 OpenCV 库2. 定义获取视频时长的函数3. 打开视频文

Python中你不知道的gzip高级用法分享

《Python中你不知道的gzip高级用法分享》在当今大数据时代,数据存储和传输成本已成为每个开发者必须考虑的问题,Python内置的gzip模块提供了一种简单高效的解决方案,下面小编就来和大家详细讲... 目录前言:为什么数据压缩如此重要1. gzip 模块基础介绍2. 基本压缩与解压缩操作2.1 压缩文

Python设置Cookie永不超时的详细指南

《Python设置Cookie永不超时的详细指南》Cookie是一种存储在用户浏览器中的小型数据片段,用于记录用户的登录状态、偏好设置等信息,下面小编就来和大家详细讲讲Python如何设置Cookie... 目录一、Cookie的作用与重要性二、Cookie过期的原因三、实现Cookie永不超时的方法(一)

Python内置函数之classmethod函数使用详解

《Python内置函数之classmethod函数使用详解》:本文主要介绍Python内置函数之classmethod函数使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录1. 类方法定义与基本语法2. 类方法 vs 实例方法 vs 静态方法3. 核心特性与用法(1编程客

Python函数作用域示例详解

《Python函数作用域示例详解》本文介绍了Python中的LEGB作用域规则,详细解析了变量查找的四个层级,通过具体代码示例,展示了各层级的变量访问规则和特性,对python函数作用域相关知识感兴趣... 目录一、LEGB 规则二、作用域实例2.1 局部作用域(Local)2.2 闭包作用域(Enclos

Python实现对阿里云OSS对象存储的操作详解

《Python实现对阿里云OSS对象存储的操作详解》这篇文章主要为大家详细介绍了Python实现对阿里云OSS对象存储的操作相关知识,包括连接,上传,下载,列举等功能,感兴趣的小伙伴可以了解下... 目录一、直接使用代码二、详细使用1. 环境准备2. 初始化配置3. bucket配置创建4. 文件上传到os

使用Python实现可恢复式多线程下载器

《使用Python实现可恢复式多线程下载器》在数字时代,大文件下载已成为日常操作,本文将手把手教你用Python打造专业级下载器,实现断点续传,多线程加速,速度限制等功能,感兴趣的小伙伴可以了解下... 目录一、智能续传:从崩溃边缘抢救进度二、多线程加速:榨干网络带宽三、速度控制:做网络的好邻居四、终端交互

Python中注释使用方法举例详解

《Python中注释使用方法举例详解》在Python编程语言中注释是必不可少的一部分,它有助于提高代码的可读性和维护性,:本文主要介绍Python中注释使用方法的相关资料,需要的朋友可以参考下... 目录一、前言二、什么是注释?示例:三、单行注释语法:以 China编程# 开头,后面的内容为注释内容示例:示例:四