Python将博客内容html导出为Markdown格式

2025-04-05 16:50

本文主要是介绍Python将博客内容html导出为Markdown格式,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

《Python将博客内容html导出为Markdown格式》Python将博客内容html导出为Markdown格式,通过博客url地址抓取文章,分析并提取出文章标题和内容,将内容构建成html,再转...

一、为什么要搞?

有一部分博客文章需要搬家,逐个手动CV复制粘贴不仅效率低下,还容易出错,而且还面临格式调整的问题。为了简化这一流程,这里尝试使用python来自动化处理,确保文章内容的准确性和一致性。

二、准备如何搞?

通过博客url地址抓取文章,分析并提取出文章标题和内容,将内容构建成html,再转换为Markdown文件。

在文章新家导入生成的Markdown文件。

三、说搞咱就搞!

抓取文章

在浏览器中(Google Chrome)输入博客网页地址,并F12打开开发者工具

选中Doc,在Response中看到响应结果是html文档

Python将博客内容html导出为Markdown格式

在Headers中复制出User-Agent,以便模拟浏览器的请求

Python将博客内容html导出为Markdown格式

Python代码

rjsequests模拟浏览器抓取文章

import requests

blog_url = 'https://blog.csdn.net/qq_40605196/article/details/134268057'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36'}
res = requests.get(url=blog_url, headers=headers)
print(res.text)

Python将博客内容html导出为Markdown格式

可见Python抓取结果和浏览器中的响应结果一致

提取内容

分析响应结果hChina编程tml

标题在articleContentId中

Python将博客内容html导出为Markdown格式

内容在content_views中

Python将博客内容html导出为Markdown格式

Python代码

使用parsel的Selector解析抓取到的文章,css选择器提取标题和内容

import parsel

selector = parsel.Selector(res.text)  # 创建Selector解析对象
title = selector.css('#articleContentId::text').get()  # CSS选择器提取文章标题
print(title)
print("="*100)
content = selector.css('China编程#content_views').get()  # CSS选择器提取文章内容
print(content)

Python将博客内容html导出为Markdown格式

构建html

www.chinasem.cn

将提取到的content构建成html

html_content = f"""
<!doctype html>
<html lang="zh-CN">
<head>
    <meta charset="UTF-8">
    <title>Document</title>
</head>
<body>
{content}
</body>
</html>
"""

转存markdown

html2text将构建好的html转换为markdown文件

from html2text import html2text

markdown = html2text(html_content)  # html转换为markdown
md_path = f'{title}.md'
with open(md_path, 'w+', encoding='utf-8') as f:  # 保存为md文件
    f.write(markdown)

markdown文件内容如下图:

Python将博客内容html导出为Markdown格式

搬入新家

在新家中导入保存的.md文件

Python将博客内容html导出为Markdown格式

文章中的文字、图片、代码块以及格式都完美搬入新家

到此这篇关于Pythwww.chinasem.cnon将博客内容html导出为Markdown格式的文章就介绍到这了,更多相关Python将html导出为Markdown内容请搜索编程China编程(www.chinasem.cn)以前的文章或继续浏览下面的相关文章希望大家以后多多支持China编程(www.chinasem.cn)!

这篇关于Python将博客内容html导出为Markdown格式的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1154105

相关文章

Python对接支付宝支付之使用AliPay实现的详细操作指南

《Python对接支付宝支付之使用AliPay实现的详细操作指南》支付宝没有提供PythonSDK,但是强大的github就有提供python-alipay-sdk,封装里很多复杂操作,使用这个我们就... 目录一、引言二、准备工作2.1 支付宝开放平台入驻与应用创建2.2 密钥生成与配置2.3 安装ali

Python获取浏览器Cookies的四种方式小结

《Python获取浏览器Cookies的四种方式小结》在进行Web应用程序测试和开发时,获取浏览器Cookies是一项重要任务,本文我们介绍四种用Python获取浏览器Cookies的方式,具有一定的... 目录什么是 Cookie?1.使用Selenium库获取浏览器Cookies2.使用浏览器开发者工具

Python实现批量提取BLF文件时间戳

《Python实现批量提取BLF文件时间戳》BLF(BinaryLoggingFormat)作为Vector公司推出的CAN总线数据记录格式,被广泛用于存储车辆通信数据,本文将使用Python轻松提取... 目录一、为什么需要批量处理 BLF 文件二、核心代码解析:从文件遍历到数据导出1. 环境准备与依赖库

Python Web框架Flask、Streamlit、FastAPI示例详解

《PythonWeb框架Flask、Streamlit、FastAPI示例详解》本文对比分析了Flask、Streamlit和FastAPI三大PythonWeb框架:Flask轻量灵活适合传统应用... 目录概述Flask详解Flask简介安装和基础配置核心概念路由和视图模板系统数据库集成实际示例Stre

Python实现PDF按页分割的技术指南

《Python实现PDF按页分割的技术指南》PDF文件处理是日常工作中的常见需求,特别是当我们需要将大型PDF文档拆分为多个部分时,下面我们就来看看如何使用Python创建一个灵活的PDF分割工具吧... 目录需求分析技术方案工具选择安装依赖完整代码实现使用说明基本用法示例命令输出示例技术亮点实际应用场景扩

SpringBoot 异常处理/自定义格式校验的问题实例详解

《SpringBoot异常处理/自定义格式校验的问题实例详解》文章探讨SpringBoot中自定义注解校验问题,区分参数级与类级约束触发的异常类型,建议通过@RestControllerAdvice... 目录1. 问题简要描述2. 异常触发1) 参数级别约束2) 类级别约束3. 异常处理1) 字段级别约束

linux批量替换文件内容的实现方式

《linux批量替换文件内容的实现方式》本文总结了Linux中批量替换文件内容的几种方法,包括使用sed替换文件夹内所有文件、单个文件内容及逐行字符串,强调使用反引号和绝对路径,并分享个人经验供参考... 目录一、linux批量替换文件内容 二、替换文件内所有匹配的字符串 三、替换每一行中全部str1为st

Python错误AttributeError: 'NoneType' object has no attribute问题的彻底解决方法

《Python错误AttributeError:NoneTypeobjecthasnoattribute问题的彻底解决方法》在Python项目开发和调试过程中,经常会碰到这样一个异常信息... 目录问题背景与概述错误解读:AttributeError: 'NoneType' object has no at

从入门到精通详解LangChain加载HTML内容的全攻略

《从入门到精通详解LangChain加载HTML内容的全攻略》这篇文章主要为大家详细介绍了如何用LangChain优雅地处理HTML内容,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录引言:当大语言模型遇见html一、HTML加载器为什么需要专门的HTML加载器核心加载器对比表二

Python使用openpyxl读取Excel的操作详解

《Python使用openpyxl读取Excel的操作详解》本文介绍了使用Python的openpyxl库进行Excel文件的创建、读写、数据操作、工作簿与工作表管理,包括创建工作簿、加载工作簿、操作... 目录1 概述1.1 图示1.2 安装第三方库2 工作簿 workbook2.1 创建:Workboo