mhtml图片提取 百度图片下载

2024-09-07 04:12

本文主要是介绍mhtml图片提取 百度图片下载,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

如果你需要找一些图片,可以先去百度一下,待相关网页加载完成后,点击保存,即可得到一个mhtml文件。这个文件里的图片会用base64进行存储,只需要找到他们并转化就可以。目前在美篇之类的网站上效果还一般,需要继续排查问题。

效果

提取图片

代码

大概分为提取所有base64、转化为图片两步。

import base64
from io import BytesIO
from PIL import Image
import os# 从文件中提取所有符合条件的 Base64 内容
def extract_all_contents(file_path):contents = []with open(file_path, 'r', encoding='utf-8') as file:content_found = Falsecontent = []for line in file:line = line.strip()  # 去除行末尾的换行符和空格if content_found:if not line:  # 如果遇到空行,表示content结束if content:  # 保存非空的 contentcontents.append("\n".join(content))content_found = Falsecontent = []  # 重置 contentelse:content.append(line)  # 将当前行加入 contentelif line.startswith("Content-Location:"):# 读取下一行,检查是否为空行next_line = next(file).strip()if not next_line:  # 如果下一行是空行,开始读取 content 部分content_found = Truereturn contents# 将 Base64 编码转换为图像
def base64_to_image(base64_string, output_image_path=None):try:# 解码 base64 字符串image_data = base64.b64decode(base64_string)# 将解码后的字节数据转换为图像image = Image.open(BytesIO(image_data))# 如果指定了输出路径,保存图像if output_image_path:image.save(output_image_path)# 返回图像对象以供进一步处理或显示return imageexcept (base64.binascii.Error, IOError):# 如果解码失败或不是有效的图像数据,返回 Nonereturn None# 综合使用两个函数处理文件
def process_large_file_for_images(file_path,save_path):# 提取所有符合条件的 Base64 内容all_contents = extract_all_contents(file_path)image_count = 0for index, content in enumerate(all_contents):print(f"处理第 {index + 1} 个内容...")# 尝试将提取的 Base64 内容转换为图像image = base64_to_image(content, f'output_image_{index + 1}.png')if image:# 如果成功生成图像,显示或进一步处理image_count += 1print(f"成功生成第 {index + 1} 个图像: output_image_{index + 1}.png")tmp_path=os.path.join(save_path,f" output_image_{index + 1}.png")image.save(tmp_path)else:print(f"第 {index + 1} 个内容无法转换为图像")if image_count == 0:print("未找到任何有效的图像内容")else:print(f"总共成功生成 {image_count} 个图像")# 使用示例
file_path = r'e:\data\网页下载\ccc.txt'  # 替换为实际的文件路径
save_path=r"e:\data\网页下载"
process_large_file_for_images(file_path,save_path)

这篇关于mhtml图片提取 百度图片下载的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1144024

相关文章

vite搭建vue3项目的搭建步骤

《vite搭建vue3项目的搭建步骤》本文主要介绍了vite搭建vue3项目的搭建步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学... 目录1.确保Nodejs环境2.使用vite-cli工具3.进入项目安装依赖1.确保Nodejs环境

Nginx搭建前端本地预览环境的完整步骤教学

《Nginx搭建前端本地预览环境的完整步骤教学》这篇文章主要为大家详细介绍了Nginx搭建前端本地预览环境的完整步骤教学,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录项目目录结构核心配置文件:nginx.conf脚本化操作:nginx.shnpm 脚本集成总结:对前端的意义很多

前端缓存策略的自解方案全解析

《前端缓存策略的自解方案全解析》缓存从来都是前端的一个痛点,很多前端搞不清楚缓存到底是何物,:本文主要介绍前端缓存的自解方案,文中通过代码介绍的非常详细,需要的朋友可以参考下... 目录一、为什么“清缓存”成了技术圈的梗二、先给缓存“把个脉”:浏览器到底缓存了谁?三、设计思路:把“发版”做成“自愈”四、代码

通过React实现页面的无限滚动效果

《通过React实现页面的无限滚动效果》今天我们来聊聊无限滚动这个现代Web开发中不可或缺的技术,无论你是刷微博、逛知乎还是看脚本,无限滚动都已经渗透到我们日常的浏览体验中,那么,如何优雅地实现它呢?... 目录1. 早期的解决方案2. 交叉观察者:IntersectionObserver2.1 Inter

Vue3视频播放组件 vue3-video-play使用方式

《Vue3视频播放组件vue3-video-play使用方式》vue3-video-play是Vue3的视频播放组件,基于原生video标签开发,支持MP4和HLS流,提供全局/局部引入方式,可监听... 目录一、安装二、全局引入三、局部引入四、基本使用五、事件监听六、播放 HLS 流七、更多功能总结在 v

JS纯前端实现浏览器语音播报、朗读功能的完整代码

《JS纯前端实现浏览器语音播报、朗读功能的完整代码》在现代互联网的发展中,语音技术正逐渐成为改变用户体验的重要一环,下面:本文主要介绍JS纯前端实现浏览器语音播报、朗读功能的相关资料,文中通过代码... 目录一、朗读单条文本:① 语音自选参数,按钮控制语音:② 效果图:二、朗读多条文本:① 语音有默认值:②

vue监听属性watch的用法及使用场景详解

《vue监听属性watch的用法及使用场景详解》watch是vue中常用的监听器,它主要用于侦听数据的变化,在数据发生变化的时候执行一些操作,:本文主要介绍vue监听属性watch的用法及使用场景... 目录1. 监听属性 watch2. 常规用法3. 监听对象和route变化4. 使用场景附Watch 的

前端导出Excel文件出现乱码或文件损坏问题的解决办法

《前端导出Excel文件出现乱码或文件损坏问题的解决办法》在现代网页应用程序中,前端有时需要与后端进行数据交互,包括下载文件,:本文主要介绍前端导出Excel文件出现乱码或文件损坏问题的解决办法,... 目录1. 检查后端返回的数据格式2. 前端正确处理二进制数据方案 1:直接下载(推荐)方案 2:手动构造

Vue实现路由守卫的示例代码

《Vue实现路由守卫的示例代码》Vue路由守卫是控制页面导航的钩子函数,主要用于鉴权、数据预加载等场景,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着... 目录一、概念二、类型三、实战一、概念路由守卫(Navigation Guards)本质上就是 在路

uni-app小程序项目中实现前端图片压缩实现方式(附详细代码)

《uni-app小程序项目中实现前端图片压缩实现方式(附详细代码)》在uni-app开发中,文件上传和图片处理是很常见的需求,但也经常会遇到各种问题,下面:本文主要介绍uni-app小程序项目中实... 目录方式一:使用<canvas>实现图片压缩(推荐,兼容性好)示例代码(小程序平台):方式二:使用uni