Python爬虫初级(七)—— 丁香园评论留言板爬取

2023-11-04 08:50

本文主要是介绍Python爬虫初级(七)—— 丁香园评论留言板爬取,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

欢迎关注公众号K的笔记阅读博主更多优质学习内容
K的笔记公众号

上一篇内容:Python爬虫初级(六)—— 正则表达式库入门

观察待爬取页面,判断爬取可行性

我们首先查看待爬取页面:http://www.dxy.cn/bbs/thread/626626#626626,具体形式为下图:
丁香园待爬取页面我们查看源代码信息:
页面源代码可以发现留言板块的内容在页面源代码全部直接显示了出来,那么我们可以尝试直接进行爬取,我们采取的思路首先是 requests 库 + bs4 库,这两者的具体用法在前面的文章均已涉及。

检测爬取链接,初步尝试爬取

首先我们可以在IDLE上检查爬取链接是否正常,直接展示代码:

>>> import requests
>>> import re
>>> from bs4 import BeautifulSoup
>>> url = "http://www.dxy.cn/bbs/thread/626626#626626"
>>> headers = {"user-agent":"Mozilla/5.0"}
>>> res = requests.get(url, headers=headers, stream=True)
>>> res.status_code
200
>>> text = res.text
>>> soup = BeautifulSoup(text)
>>> text[1000:1300]
'og:description" content="我遇到一个“怪”病人,向大家请教。她,42岁。反复惊吓后晕厥30余年。每次受响声惊吓后发生跌倒,短暂意识丧失。无逆行性遗忘,无抽搐,无口吐白沫,无大小便失禁。多次跌倒致外伤。婴儿时有惊厥史。入院查体无殊。ECG、24小时动态心电图无殊;头颅MRI示小软化灶;脑电图无殊。入院后有数次类似发作。请问该患者该做何诊断,还需做什么检查,治疗方案怎样?"/>\n        <meta property="og:author" content="楼医生"/>\n        <meta property="og:release_date" content'

我们想要抓取链接,先在上面的源代码中对标题层级结构进行分析:
标题代码

然后直接写出相关代码:

>>> title = soup("div", id="postview")[0].tr.th.h1.contents[0]
['\n                    晕厥待查——请教各位同仁                 ']
>>> title = title.replace(" ", "")
>>> title = title.replace("\n", "")
>>>> title
'晕厥待查——请教各位同仁'

下面同理可以查看其他信息,下面我们为了便于操作直接采用 CSS 类名查找:

>>> context = soup.select("[class~=postbody]")
# 返回所有内容信息 

返回的信息内容如下:
爬取返回内容对内容进行清理:

>>> cont = context[1].contents[0]
>>> cont = cont.replace(" ", "")
>>> cont = cont.replace("\n", "")
>>> cont
'从发作的症状上比较符合血管迷走神经性晕厥,直立倾斜试验能协助诊断。在行直立倾斜实验前应该做常规的体格检查、ECG、UCG、holter和X-ray胸片除外器质性心脏病。'

测试代码写完后,我们写出完整代码:

import requests
from bs4 import BeautifulSoupdef getHTML(url):try:headers = {"user-agent":"Mozilla/5.0"}res = requests.get(url, headers=headers, stream=True)res.raise_for_statusres.encoding = res.apparent_encodingreturn res.textexcept:return ""def ParseFromPage(html):commentList = []soup = BeautifulSoup(html)title = soup("div", id="postview")[0].tr.th.h1.contents[0]title = title.replace(" ", "")title = title.replace("\n", "")context = soup.select("[class~=postbody]")for i in range(len(context)):cont = context[i].contents[0]cont = cont.replace(" ", "")commentList.append(cont)return title, commentListdef main():base_url = "http://www.dxy.cn/bbs/thread/626626#626626"html = getHTML(base_url)title, cList = ParseFromPage(html)print(title, cList)main()

拓展一

我们爬取完单一页面后,我们可以考虑,是否可以爬取更多的页面。我们的思考出发点是丁香园每个页面的链接下面都会存在一个引向其他同类型页面的链接,比如:
链接抓取我们可以看到,下面的 “骨折手术后一周突发心跳骤停,抢救无效死亡,什么原因?”这段话不就是我们要找的链接,点开后也确实如我们所料,页面结构的解析和本页面的解析一样,我们完全可以复用这段代码,只需要改变一下 url 即可。下面我们尝试通过 re 库获取此 url 链接:

>>> import re
>>> href = re.findall(r'&#149; <a href="(.*?)" target', text)
>>> href
['http://job.dxy.cn/bbs/topic/43200651', 'http://www.dxy.cn/bbs/topic/43177945', 'http://Radiology.dxy.cn/bbs/topic/43179123', 'http://www.dxy.cn/bbs/topic/43172871']

这里我们看到有四个链接,但并不是每个链接都是我们需要的,通过观察后我们发现,只有以 “http://www.dxy.cn/bbs/topic” 开头的链接才是我们需要的,我们可以将查找链接的方式改为:

>>> re.findall(r'<a href="(http://www.dxy.cn/bbs/topic/.*?) target="_blank"',text)
['http://www.dxy.cn/bbs/topic/43177945"', 'http://www.dxy.cn/bbs/topic/43172871"']

我们看到返回了两个正确结果,为了不增大网站压力,我们修改主函数,仅仅爬取十条链接的内容,并存储到 dxy.txt 文件中,主函数代码如下:

def main():base_url = "http://www.dxy.cn/bbs/thread/626626#626626"for i in range(10):html = getHTML(base_url)title, cList = ParseFromPage(html)with open("dxy.txt", "a", encoding="utf-8") as f:f.write(title)f.write("\n")for i in range(len(cList)):f.write(cList[i])f.write("\n")f.write("\n")try:url_list = re.findall(r'<a href="(http://www.dxy.cn/bbs/topic/.*?) target="_blank"',html)base_url = url_list[0]except:continue

此代码应能正确爬取链接,代码规范有待网友指正。

拓展二

我们还可以使用 lxml 爬取内容,事实上此代码会更加简洁, lxml 的具体用法将在下期内容展开,以下直接简单使用之:

from lxml import html, etree
>>> tree1 = html.tostring(tree.xpath('//td[@class="postbody"]')[1])
>>> txt = HTMLParser().unescape(tree1.decode('utf-8'))
>>> txt.replace(" ","")
'<tdclass="postbody">\n\n从发作的症状上比较符合血管迷走神经性晕厥,直立倾斜试验能协助诊断。在行直立倾斜实验前应该做常规的体格检查、ECG、UCG、holter和X-ray胸片除外器质性心脏病。<br><br>贴一篇“口服氨酰心安和依那普利治疗血管迷走性晕厥的疗效观察”<br>作者:林文华任自文丁燕生<br><br><ahref="http://www.ccheart.com.cn/ccheart_site/Templates/jieru/200011/1-1.htm"target="_blank"class="ilink"rel="nofollow">http://www.ccheart.com.cn/ccheart_site/Templates/jieru/200011/1-1.htm</a>\n\t</td>\n'                           '

其他信息的抽取以及代码的结构化同上即可。

下一篇内容:Python爬虫初级(八)—— lxml 详解及代理IP爬取

这篇关于Python爬虫初级(七)—— 丁香园评论留言板爬取的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:https://blog.csdn.net/ChenKai_164/article/details/105744498
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/344612

相关文章

Python包管理工具pip的升级指南

《Python包管理工具pip的升级指南》本文全面探讨Python包管理工具pip的升级策略,从基础升级方法到高级技巧,涵盖不同操作系统环境下的最佳实践,我们将深入分析pip的工作原理,介绍多种升级方... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

基于Python实现一个图片拆分工具

《基于Python实现一个图片拆分工具》这篇文章主要为大家详细介绍了如何基于Python实现一个图片拆分工具,可以根据需要的行数和列数进行拆分,感兴趣的小伙伴可以跟随小编一起学习一下... 简单介绍先自己选择输入的图片,默认是输出到项目文件夹中,可以自己选择其他的文件夹,选择需要拆分的行数和列数,可以通过

Python中反转字符串的常见方法小结

《Python中反转字符串的常见方法小结》在Python中,字符串对象没有内置的反转方法,然而,在实际开发中,我们经常会遇到需要反转字符串的场景,比如处理回文字符串、文本加密等,因此,掌握如何在Pyt... 目录python中反转字符串的方法技术背景实现步骤1. 使用切片2. 使用 reversed() 函

Python中将嵌套列表扁平化的多种实现方法

《Python中将嵌套列表扁平化的多种实现方法》在Python编程中,我们常常会遇到需要将嵌套列表(即列表中包含列表)转换为一个一维的扁平列表的需求,本文将给大家介绍了多种实现这一目标的方法,需要的朋... 目录python中将嵌套列表扁平化的方法技术背景实现步骤1. 使用嵌套列表推导式2. 使用itert

使用Docker构建Python Flask程序的详细教程

《使用Docker构建PythonFlask程序的详细教程》在当今的软件开发领域,容器化技术正变得越来越流行,而Docker无疑是其中的佼佼者,本文我们就来聊聊如何使用Docker构建一个简单的Py... 目录引言一、准备工作二、创建 Flask 应用程序三、创建 dockerfile四、构建 Docker

Python使用vllm处理多模态数据的预处理技巧

《Python使用vllm处理多模态数据的预处理技巧》本文深入探讨了在Python环境下使用vLLM处理多模态数据的预处理技巧,我们将从基础概念出发,详细讲解文本、图像、音频等多模态数据的预处理方法,... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

Python使用pip工具实现包自动更新的多种方法

《Python使用pip工具实现包自动更新的多种方法》本文深入探讨了使用Python的pip工具实现包自动更新的各种方法和技术,我们将从基础概念开始,逐步介绍手动更新方法、自动化脚本编写、结合CI/C... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

Conda与Python venv虚拟环境的区别与使用方法详解

《Conda与Pythonvenv虚拟环境的区别与使用方法详解》随着Python社区的成长,虚拟环境的概念和技术也在不断发展,:本文主要介绍Conda与Pythonvenv虚拟环境的区别与使用... 目录前言一、Conda 与 python venv 的核心区别1. Conda 的特点2. Python v

Python使用python-can实现合并BLF文件

《Python使用python-can实现合并BLF文件》python-can库是Python生态中专注于CAN总线通信与数据处理的强大工具,本文将使用python-can为BLF文件合并提供高效灵活... 目录一、python-can 库:CAN 数据处理的利器二、BLF 文件合并核心代码解析1. 基础合

Python使用OpenCV实现获取视频时长的小工具

《Python使用OpenCV实现获取视频时长的小工具》在处理视频数据时,获取视频的时长是一项常见且基础的需求,本文将详细介绍如何使用Python和OpenCV获取视频时长,并对每一行代码进行深入解析... 目录一、代码实现二、代码解析1. 导入 OpenCV 库2. 定义获取视频时长的函数3. 打开视频文