使用Python通过字节串或字节数组加载和保存PDF文档

2024-09-06 20:28

本文主要是介绍使用Python通过字节串或字节数组加载和保存PDF文档,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

处理PDF文件的可以直接读取和写入文件系统中的PDF文件,然而,通过字节串(byte string)或字节数组(byte array)来加载和保存PDF文档在某些情况下更高效。这种方法不仅可以提高数据处理的灵活性,允许开发者在内存中直接操作PDF,而且还能增强安全性,同时方便跨应用传输和网络传输。
本文将介绍如何使用Python通过字节串或字节数组来加载和保存PDF文档

文章目录

    • 创建PDF文档并保存为字节串或字节数组
    • 从字节串或字节数组加载PDF文档进行操作

本文所使用的方法需要用到Spire.PDF for Python,PyPI:pip install Spire.PDF

创建PDF文档并保存为字节串或字节数组

我们可以使用库中的类和方法直接创建PDF文档,并将其保存到Stream对象。此对象可通过Stream.ToArray()方法转换为不可变的bytes对象进行操作。而bytes对象也可以直接转换为可变的bytearray对象,从而对文件进行字节层面的编辑或其他操作。以下是操作步骤:

  1. 导入所需模块。
  2. 创建PdfDocument对象。
  3. 设置PDF页面,添加页面并绘制内容。
  4. 使用PdfDocument.SaveToStream()方法将PDF文档保存到Stream对象。
  5. 使用Stream.ToArray()方法将Stream对象转换为bytes对象。
  6. 可使用bytes对象直接构建bytearray对象。
  7. 接下来可以字节串或字节数组进行更多操作,如写入文件、传输等。

代码示例

from spire.pdf import *# 创建PdfDocument类的一个实例
pdf = PdfDocument()# 设置文档的页面大小和边距
pageSettings = pdf.PageSettings
pageSettings.Size = PdfPageSize.A4()
pageSettings.Margins.Top = 50
pageSettings.Margins.Bottom = 50
pageSettings.Margins.Left = 40
pageSettings.Margins.Right = 40# 向文档添加一个新的页面
page = pdf.Pages.Add()# 为文档内容创建字体和画笔
titleFont = PdfTrueTypeFont("HarmonyOS Sans SC", 16.0, PdfFontStyle.Bold, True)
titleBrush = PdfBrushes.get_Brown()
contentFont = PdfTrueTypeFont("HarmonyOS Sans SC", 13.0, PdfFontStyle.Regular, True)
contentBrush = PdfBrushes.get_Black()# 在页面上绘制标题
titleText = "人工智能简介"
titleSize = titleFont.MeasureString(titleText)
page.Canvas.DrawString(titleText, titleFont, titleBrush, PointF(0.0, 30.0))# 在页面上绘制正文文本
contentText = ("人工智能(AI)是计算机科学的一个分支,它旨在创造能够模拟人类智能行为的机器。这包括学习(通过经验改进自身)、推理(使用规则来达到近似或确定性的结论)、自我修正等特性。AI的应用范围广泛,从简单的任务自动化到复杂的决策支持系统均有涉及。")
# 设置正文文本的格式
contentFormat = PdfStringFormat()
contentFormat.Alignment = PdfTextAlignment.Justify
contentFormat.LineSpacing = 20.0
# 使用正文文本创建一个TextWidget对象并应用字符串格式
textWidget = PdfTextWidget(contentText, contentFont, contentBrush)
textWidget.StringFormat = contentFormat
# 创建一个TextLayout对象并设置布局选项
textLayout = PdfTextLayout()
textLayout.Layout = PdfLayoutType.Paginate
textLayout.Break = PdfLayoutBreakType.FitPage
# 在页面上绘制TextWidget
rect = RectangleF(PointF(0.0, titleSize.Height + 50.0), page.Canvas.ClientSize)
textWidget.Draw(page, rect, textLayout)# 将PDF文档保存到一个Stream对象
pdfStream = Stream()
pdf.SaveToStream(pdfStream)# 将Stream对象转换为bytes对象
pdfBytes = pdfStream.ToArray()# 将Stream对象转换为bytearray对象
pdfBytearray = bytearray(pdfStream.ToArray())# 将字节流写入文件
with open("output/AI简介.pdf", "wb") as f:f.write(pdfBytearray)

结果
Python创建PDF文档并保存为字节

从字节串或字节数组加载PDF文档进行操作

Stream类支持用bytes对象(或bytearray直接转换为bytes)直接构建实例。然后,我们可以使用PdfDocument.LoadFromStream()方法将Stream对象载入为PDF文档进行文档操作,如编辑、转换等。以下是操作步骤:

  1. 导入所需模块。
  2. 创建bytes对象或使用现有bytes对象,来构建Stream对象。
  3. 创建PdfDocument对象。
  4. 使用PdfDocument.LoadFromStream()方法将Stream对象载入为PDF文档。
  5. 对文档进行操作,如提取页面文字。

代码示例

from spire.pdf import *# 从PDF文件创建一个字节数组
with open("示例.pdf", "rb") as f:byteData = f.read()# 从字节数组创建一个Stream对象
stream = Stream(byteData)# 将Stream对象加载为PDF文档
pdf = PdfDocument(stream)# 获取第一页的文字
page = pdf.Pages.get_Item(0)
textExtractor = PdfTextExtractor(page)
extractOptions = PdfTextExtractOptions()
extractOptions.IsExtractAllText = True
text = textExtractor.ExtractText(extractOptions)# 打印文字
print(text)

结果
Python从字节载入PDF文档进行操作

本文演示了如何使用Python通过字节串或字节数组加载或保存PDF文档。

更多PDF文档操作技巧请前往Spire.PDF for Python教程查看。

申请免费License

这篇关于使用Python通过字节串或字节数组加载和保存PDF文档的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1143034

相关文章

C#借助Spire.XLS for .NET实现在Excel中添加文档属性

《C#借助Spire.XLSfor.NET实现在Excel中添加文档属性》在日常的数据处理和项目管理中,Excel文档扮演着举足轻重的角色,本文将深入探讨如何在C#中借助强大的第三方库Spire.... 目录为什么需要程序化添加Excel文档属性使用Spire.XLS for .NET库实现文档属性管理Sp

Python+FFmpeg实现视频自动化处理的完整指南

《Python+FFmpeg实现视频自动化处理的完整指南》本文总结了一套在Python中使用subprocess.run调用FFmpeg进行视频自动化处理的解决方案,涵盖了跨平台硬件加速、中间素材处理... 目录一、 跨平台硬件加速:统一接口设计1. 核心映射逻辑2. python 实现代码二、 中间素材处

python中的flask_sqlalchemy的使用及示例详解

《python中的flask_sqlalchemy的使用及示例详解》文章主要介绍了在使用SQLAlchemy创建模型实例时,通过元类动态创建实例的方式,并说明了如何在实例化时执行__init__方法,... 目录@orm.reconstructorSQLAlchemy的回滚关联其他模型数据库基本操作将数据添

Spring配置扩展之JavaConfig的使用小结

《Spring配置扩展之JavaConfig的使用小结》JavaConfig是Spring框架中基于纯Java代码的配置方式,用于替代传统的XML配置,通过注解(如@Bean)定义Spring容器的组... 目录JavaConfig 的概念什么是JavaConfig?为什么使用 JavaConfig?Jav

Java数组动态扩容的实现示例

《Java数组动态扩容的实现示例》本文主要介绍了Java数组动态扩容的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录1 问题2 方法3 结语1 问题实现动态的给数组添加元素效果,实现对数组扩容,原始数组使用静态分配

Python实现快速扫描目标主机的开放端口和服务

《Python实现快速扫描目标主机的开放端口和服务》这篇文章主要为大家详细介绍了如何使用Python编写一个功能强大的端口扫描器脚本,实现快速扫描目标主机的开放端口和服务,感兴趣的小伙伴可以了解下... 目录功能介绍场景应用1. 网络安全审计2. 系统管理维护3. 网络故障排查4. 合规性检查报错处理1.

Python轻松实现Word到Markdown的转换

《Python轻松实现Word到Markdown的转换》在文档管理、内容发布等场景中,将Word转换为Markdown格式是常见需求,本文将介绍如何使用FreeSpire.DocforPython实现... 目录一、工具简介二、核心转换实现1. 基础单文件转换2. 批量转换Word文件三、工具特性分析优点局

Python中4大日志记录库比较的终极PK

《Python中4大日志记录库比较的终极PK》日志记录框架是一种工具,可帮助您标准化应用程序中的日志记录过程,:本文主要介绍Python中4大日志记录库比较的相关资料,文中通过代码介绍的非常详细,... 目录一、logging库1、优点2、缺点二、LogAid库三、Loguru库四、Structlogphp

Java使用Spire.Doc for Java实现Word自动化插入图片

《Java使用Spire.DocforJava实现Word自动化插入图片》在日常工作中,Word文档是不可或缺的工具,而图片作为信息传达的重要载体,其在文档中的插入与布局显得尤为关键,下面我们就来... 目录1. Spire.Doc for Java库介绍与安装2. 使用特定的环绕方式插入图片3. 在指定位

Springboot3 ResponseEntity 完全使用案例

《Springboot3ResponseEntity完全使用案例》ResponseEntity是SpringBoot中控制HTTP响应的核心工具——它能让你精准定义响应状态码、响应头、响应体,相比... 目录Spring Boot 3 ResponseEntity 完全使用教程前置准备1. 项目基础依赖(M