【VBA脚本】提取word文档中所有批注的信息和待解决状态

2023-10-09 14:40

本文主要是介绍【VBA脚本】提取word文档中所有批注的信息和待解决状态,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

关于word文档的工具,之前做过这个:

针对word.docx文档的关键词索引器

这个工具在我设想中的是用来在项目的后期检查文档中是否还有TBD/TODO这类关键词未清理,检查文档的完成状态。而后,继续探索对于文档质量检查的工具,于是我发现我们很多文档的review是通过批注完成的(当然也有借助网站的),而这些批注的待解决状态并不是非常的直观:

尤其是文档较长的时候,需要一条一条的过(当然了,word里也支持跳到下一个未解决)。如果只有一个文档还好,如果你作为交付负责人,要负责许多文档的交付质量时,一个文档一个文档的看肯定是不现实的,因此我觉得有必要做这样一个统计归档的工具。当然,已经有review网站或者平台做了这种事情,所以我这个工具主要是作为练手,或者是没买这类平台的人。

终极构想

图形化界面操作:

1.选取目录,之后递归得到所有word文档;

2.对每一个word文档,抓取所有的批注,包括文档路径、批注页码、行号、批注内容、原文、批注者、批注时间、批注解决状态,其中批注解决状态是需要的核心信息;

3.设置选项,可以只抓取未解决的批注;

4.抓取成功后将信息整理到需要的excel文档中,以供评审。

抓取批注信息

python抓取批注

最开始我想的是用python来抓取docx里的批注信息,也仿写了代码:

def docx_comments_get(file):document = ZipFile(file)xml = document.read("word/comments.xml")wordObj = BeautifulSoup(xml.decode("utf-8"), features="xml")texts = wordObj.findAll("w:t")for text in texts:print(text.text)
passdef main():docx_comments_get("D:\MyWork\python\测试文档.docx")

但是发现这样做只能抓取批注内容,对于其他的信息很难获取,即使打开了docx里comments.xml源文件,里面的内容也很有限:

其他的信息就散落在他的xml文件里,我的确是不太会处理。所以通过python去提取批注的完整信息这条路基本就走不通了。

VBA抓取批注

于是我就转换了一个方向,通过VBA来获取内部的批注信息,微软自己的工具对word的支持应该做的不能差吧。继续这个方向发现确实,VBA可以把一个word内部的批注信息提供的非常完善。通过word的开发工具进入visual basic的编程界面,开始编写宏文件。

下面是我最终的宏代码:


Public Sub exportWordComments_Click()FileName = Application.ActiveDocument '文件名.docxvarResult = VBA.Split(FileName, ".")FileNameStr = varResult(0) '去除后缀的文件名Path = Application.ActiveDocument.PathFilePath = Path & "\" & FileName '当前文件的完整路径LogPath = Path & "\" & FileNameStr & "_comments.txt" '批注信息的输出目录'Debug.Print (FilePath)If FileName = "False" ThenExit SubEnd IfRows = ActiveDocument.Comments.Count '总的批注数量'Debug.Print (Rows)Open LogPath For Output As #1 '输出txt文件Print #1, "==================================================="For i = 1 To RowsPageNumber = ActiveDocument.Comments(i).Scope.Information(wdActiveEndPageNumber) '批注在第几页CharacterLineNumber = ActiveDocument.Comments(i).Scope.Information(wdFirstCharacterLineNumber) '批注在这页的第几行Scope = ActiveDocument.Comments(i).Scope '批注原文ScopeComment = ActiveDocument.Comments(i).Range '批注内容ScopeDate = ActiveDocument.Comments(i).Date  '批注时间ScopeAuthor = ActiveDocument.Comments(i).Contact '批注作者ScopeDone = ActiveDocument.Comments(i).Done '批注是否被解决'Debug.Print ("原文:" & ActiveDocument.Comments(i).Scope) '原文'Debug.Print (ActiveDocument.Comments(i).Done)'Debug.Print (ActiveDocument.Comments(i).Contact)'Debug.Print (ActiveDocument.Comments(i).Creator)'Debug.Print (ActiveDocument.Comments(i).Date)'Debug.Print (ActiveDocument.Comments(i).Index)'Debug.Print (ActiveDocument.Comments(i).Parent)'Debug.Print (ActiveDocument.Comments(i).Reference)'Debug.Print ("批注内容:" & ActiveDocument.Comments(i).Range) '批注内容'Debug.Print (ActiveDocument.Comments(i).IsInk)'是否包含链接Print #1, "文件:" & FilePathPrint #1, "页:" & PageNumberPrint #1, "行:" & CharacterLineNumberPrint #1, "原文:" & ScopePrint #1, "批注:" & ScopeCommentPrint #1, "日期:" & ScopeDatePrint #1, "批注者:" & ScopeAuthorPrint #1, "是否解决:" & ScopeDonePrint #1, "==================================================="NextPrint #1, ""Close #1End Sub

执行宏命令后,会在word的目录下出现一个 文件名_comments.txt 文件,打开文件可以看到如下信息:

后记

最关键的第一步打通之后,接下来就是通过python递归所有带处理文件,对每一个文件调用宏生成txt,整理所有txt为excel表,对整个程序做图形界面以便使用。

请待后续~

这篇关于【VBA脚本】提取word文档中所有批注的信息和待解决状态的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/173552

相关文章

IDEA和GIT关于文件中LF和CRLF问题及解决

《IDEA和GIT关于文件中LF和CRLF问题及解决》文章总结:因IDEA默认使用CRLF换行符导致Shell脚本在Linux运行报错,需在编辑器和Git中统一为LF,通过调整Git的core.aut... 目录问题描述问题思考解决过程总结问题描述项目软件安装shell脚本上git仓库管理,但拉取后,上l

解决docker目录内存不足扩容处理方案

《解决docker目录内存不足扩容处理方案》文章介绍了Docker存储目录迁移方法:因系统盘空间不足,需将Docker数据迁移到更大磁盘(如/home/docker),通过修改daemon.json配... 目录1、查看服务器所有磁盘的使用情况2、查看docker镜像和容器存储目录的空间大小3、停止dock

idea npm install很慢问题及解决(nodejs)

《ideanpminstall很慢问题及解决(nodejs)》npm安装速度慢可通过配置国内镜像源(如淘宝)、清理缓存及切换工具解决,建议设置全局镜像(npmconfigsetregistryht... 目录idea npm install很慢(nodejs)配置国内镜像源清理缓存总结idea npm in

idea突然报错Malformed \uxxxx encoding问题及解决

《idea突然报错Malformeduxxxxencoding问题及解决》Maven项目在切换Git分支时报错,提示project元素为描述符根元素,解决方法:删除Maven仓库中的resolv... 目www.chinasem.cn录问题解决方式总结问题idea 上的 maven China编程项目突然报错,是

在Ubuntu上打不开GitHub的完整解决方法

《在Ubuntu上打不开GitHub的完整解决方法》当你满心欢喜打开Ubuntu准备推送代码时,突然发现终端里的gitpush卡成狗,浏览器里的GitHub页面直接变成Whoathere!警告页面... 目录一、那些年我们遇到的"红色惊叹号"二、三大症状快速诊断症状1:浏览器直接无法访问症状2:终端操作异常

使用Java填充Word模板的操作指南

《使用Java填充Word模板的操作指南》本文介绍了Java填充Word模板的实现方法,包括文本、列表和复选框的填充,首先通过Word域功能设置模板变量,然后使用poi-tl、aspose-words... 目录前言一、设置word模板普通字段列表字段复选框二、代码1. 引入POM2. 模板放入项目3.代码

使用EasyPoi快速导出Word文档功能的实现步骤

《使用EasyPoi快速导出Word文档功能的实现步骤》EasyPoi是一个基于ApachePOI的开源Java工具库,旨在简化Excel和Word文档的操作,本文将详细介绍如何使用EasyPoi快速... 目录一、准备工作1、引入依赖二、准备好一个word模版文件三、编写导出方法的工具类四、在Export

mybatis直接执行完整sql及踩坑解决

《mybatis直接执行完整sql及踩坑解决》MyBatis可通过select标签执行动态SQL,DQL用ListLinkedHashMap接收结果,DML用int处理,注意防御SQL注入,优先使用#... 目录myBATiFBNZQs直接执行完整sql及踩坑select语句采用count、insert、u

利用Python操作Word文档页码的实际应用

《利用Python操作Word文档页码的实际应用》在撰写长篇文档时,经常需要将文档分成多个节,每个节都需要单独的页码,下面:本文主要介绍利用Python操作Word文档页码的相关资料,文中通过代码... 目录需求:文档详情:要求:该程序的功能是:总结需求:一次性处理24个文档的页码。文档详情:1、每个

Java发送SNMP至交换机获取交换机状态实现方式

《Java发送SNMP至交换机获取交换机状态实现方式》文章介绍使用SNMP4J库(2.7.0)通过RCF1213-MIB协议获取交换机单/多路状态,需开启SNMP支持,重点对比SNMPv1、v2c、v... 目录交换机协议SNMP库获取交换机单路状态获取交换机多路状态总结交换机协议这里使用的交换机协议为常