详解C#如何提取PDF文档中的图片

2025-04-04 03:50

本文主要是介绍详解C#如何提取PDF文档中的图片,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

《详解C#如何提取PDF文档中的图片》提取图片可以将这些图像资源进行单独保存,方便后续在不同的项目中使用,下面我们就来看看如何使用C#通过代码从PDF文档中提取图片吧...

当 PDF 文件中包含有价值的图片,如艺术画作、设计素材、报告图表等,提取图片可以将这些图像资源进行单独保存,方便后续在不同的项目中使用,避免每次都要从 PDF 中查找。本文将介绍如何使用C#通过代码从PDF文档中提取图片,包含以下两个示例:

提取PDF图片需要用到 Spire.PDF for .NET 库。可以通过此链接下载产品包后手动添加引用,或者直接通过NuGet安装

C# 提取指定 PDF 页面中的图片

PdfImageHelper 类可用于帮助用户管理 PDF 文档中的图像,要从某个指定的PDF页面中提取图片,参考以下步骤:

使用 PdfDocument 类的 LoadFromFile() 方法加载 PDF 文件。

通过 PdfDocument 类的 Pages[index] 属性获取指定页面。

创建 PdfImageHelper 对象,然后使用其 GetImagesInfo() 方法获取页面中图像信息集合。

遍历图像信息集合,并使用 PdfImageInfo.Image.Save() 方法将每一张图片以PNG格式储存到指定文件路径。

C# 代码:

using Spire.Pdf;
using Spire.Pdf.Utilities;
using System.Drawing;
编程
namespace ExtractImagesFromSpecificPage
{
    class Program
    {
        static void Main(string[] args)
        {
            // 加载PDF文档
            PdfDocument pdf = new PdfDocument();
            pdf.LoadFromFile("E:\\pythonPDF\\AI.pdf");

            // 获取第一页
            PdfPageBase page = pdf.Pages[0];

            // 创建PdfImageHelper对象
            PdfImageHelper imageHelper = new PdfImageHelper();

            // 获取页面上的图片信息 
            PdfImageInfo[] imageInfos = imageHelper.GetImagesInfo(page);

            // 遍历图片信息
            for (int i = 0; i < imageInfos.Length; i++)
            {
                // 获取某个指定图片信息
                PdfImageInfo imageInfo = imageInfos[i];

                // 获取指定图片
                Image image = imageInfo.Image;

                // 将图片保存为png格式
                image.Save("图片\\图-" + i + ".png");
            }

            pdf.Dispose();
        }
    }
}

详解C#如何提取PDF文档中的图片

C# 提取PDF 文档中所有图片

要获取整个PDF文档中的图片,就需要遍历每一页然后再提取,具体参考以下步骤:

  • 使用 PdfDocument 类的 LoadFromFile() 方法js加载 PDF 文件。
  • 创建 PdfImageHelper 对象。
  • 遍历文档中的每一个页面。
  • 通过 PdfDocument 类的 Pages[index] 属性获取指定页面。
  • 使用 PdfImageHelper.GetImagesInfo() 方法获取页面中图像信息集合。
  • 遍历图像信息集合,并使用 **PdfImageInfo.Image.Save()**方法将每一张图片以PNG格式储存到指定文件路径。

C# 代码:

using Spire.Pdf;
using Spire.Pdf.Utilities;
using System.Drawing;

npythonamespace dUTAoobwpxExtractAllImages
    {
        class Program
        {
            static void Main(string[] args)
            {
                // 加载PDF文档
                PdfDocument pdf = new PdfDocument();
                pdf.LoadFromFile("E:\\PythonPDF\\AI.pdf");

                // 创建PdfImageHelper对象
                PdfImageHelper imageHelper = new PdfImageHelper();

                int m = 0;
                // 遍历PDF页面
                for (int i = 0; i < pdf.Pages.Count; i++)
                {
                    // 获取指定页面
                    PdfPageBase page = pdf.Pages[i];

                    // 获取页面上的图片信息 
                    China编程PdfImageInfo[] imageInfos = imageHelper.GetImagesInfo(page);

                    // 遍历图片信息
                    for (int j = 0; j < imageInfos.Length; j++)
                    {
                        // 获取某个指定图片信息
                        PdfImageInfo imageInfo = imageInfos[j];

                        // 获取指定图片
                        Image image = imageInfo.Image;

                        // 将图片保存为png格式
                        image.Save("PDF图片\\图-" + m + ".png");
                        m++;
                    }

                }

                pdf.Dispose();
            }
        }
    }

详解C#如何提取PDF文档中的图片

到此这篇关于详解C#如何提取PDF文档中的图片的文章就介绍到这了,更多相关C#提取PDF图片内容请搜索编程China编程(www.chinasem.cn)以前的文章或继续浏览下面的相关文章希望大家以后多多支持China编程(www.chinasem.cn)!

这篇关于详解C#如何提取PDF文档中的图片的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1154083

相关文章

MySQL存储过程之循环遍历查询的结果集详解

《MySQL存储过程之循环遍历查询的结果集详解》:本文主要介绍MySQL存储过程之循环遍历查询的结果集,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录前言1. 表结构2. 存储过程3. 关于存储过程的SQL补充总结前言近来碰到这样一个问题:在生产上导入的数据发现

MyBatis ResultMap 的基本用法示例详解

《MyBatisResultMap的基本用法示例详解》在MyBatis中,resultMap用于定义数据库查询结果到Java对象属性的映射关系,本文给大家介绍MyBatisResultMap的基本... 目录MyBATis 中的 resultMap1. resultMap 的基本语法2. 简单的 resul

从基础到进阶详解Pandas时间数据处理指南

《从基础到进阶详解Pandas时间数据处理指南》Pandas构建了完整的时间数据处理生态,核心由四个基础类构成,Timestamp,DatetimeIndex,Period和Timedelta,下面我... 目录1. 时间数据类型与基础操作1.1 核心时间对象体系1.2 时间数据生成技巧2. 时间索引与数据

Mybatis Plus Join使用方法示例详解

《MybatisPlusJoin使用方法示例详解》:本文主要介绍MybatisPlusJoin使用方法示例详解,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,... 目录1、pom文件2、yaml配置文件3、分页插件4、示例代码:5、测试代码6、和PageHelper结合6

一文全面详解Python变量作用域

《一文全面详解Python变量作用域》变量作用域是Python中非常重要的概念,它决定了在哪里可以访问变量,下面我将用通俗易懂的方式,结合代码示例和图表,带你全面了解Python变量作用域,需要的朋友... 目录一、什么是变量作用域?二、python的四种作用域作用域查找顺序图示三、各作用域详解1. 局部作

Python基于微信OCR引擎实现高效图片文字识别

《Python基于微信OCR引擎实现高效图片文字识别》这篇文章主要为大家详细介绍了一款基于微信OCR引擎的图片文字识别桌面应用开发全过程,可以实现从图片拖拽识别到文字提取,感兴趣的小伙伴可以跟随小编一... 目录一、项目概述1.1 开发背景1.2 技术选型1.3 核心优势二、功能详解2.1 核心功能模块2.

Java SWT库详解与安装指南(最新推荐)

《JavaSWT库详解与安装指南(最新推荐)》:本文主要介绍JavaSWT库详解与安装指南,在本章中,我们介绍了如何下载、安装SWTJAR包,并详述了在Eclipse以及命令行环境中配置Java... 目录1. Java SWT类库概述2. SWT与AWT和Swing的区别2.1 历史背景与设计理念2.1.

C++作用域和标识符查找规则详解

《C++作用域和标识符查找规则详解》在C++中,作用域(Scope)和标识符查找(IdentifierLookup)是理解代码行为的重要概念,本文将详细介绍这些规则,并通过实例来说明它们的工作原理,需... 目录作用域标识符查找规则1. 普通查找(Ordinary Lookup)2. 限定查找(Qualif

SpringBoot 中 CommandLineRunner的作用示例详解

《SpringBoot中CommandLineRunner的作用示例详解》SpringBoot提供的一种简单的实现方案就是添加一个model并实现CommandLineRunner接口,实现功能的... 目录1、CommandLineRunnerSpringBoot中CommandLineRunner的作用

Go语言如何判断两张图片的相似度

《Go语言如何判断两张图片的相似度》这篇文章主要为大家详细介绍了Go语言如何中实现判断两张图片的相似度的两种方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 在介绍技术细节前,我们先来看看图片对比在哪些场景下可以用得到:图片去重:自动删除重复图片,为存储空间"瘦身"。想象你是一个