【爬虫】使用Python爬取百度学术页面的标题、作者、摘要和关键词

本文主要是介绍【爬虫】使用Python爬取百度学术页面的标题、作者、摘要和关键词，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

安装所需库

首先，确保已安装所需的Python库：

pip install requests beautifulsoup4

编写爬虫

以下是一个示例脚本：

import requests
from bs4 import BeautifulSoup# 百度学术页面URL
url = "https://xueshu.baidu.com/usercenter/paper/show?paperid=7ea6e4650085a4bf2457468cc815cabe&site=xueshu_se"# 请求头
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}# 发送请求
response = requests.get(url, headers=headers)
response.encoding = 'utf-8'if response.status_code == 200:# 解析HTMLsoup = BeautifulSoup(response.text, 'html.parser')# 提取标题title_tag = soup.find('a', {'data-click': "{'act_block':'main','button_tp':'title'}"})title = title_tag.get_text(strip=True) if title_tag else "未找到标题"# 提取作者author_tag = soup.find('p', {'class': 'author_text'})author = author_tag.get_text(strip=True) if author_tag else "未找到作者"# 提取摘要abstract_tag = soup.find('p', {'class': 'abstract'})abstract = abstract_tag.get_text(strip=True) if abstract_tag else "未找到摘要"# 提取关键词keywords_tag = soup.find('div', {'class': 'kw_wr'})if keywords_tag:keywords = [keyword.get_text(strip=True) for keyword in keywords_tag.find_all('a')]keywords = ', '.join(keywords)else:keywords = "未找到关键词"# 打印提取结果print("标题:", title)print("作者:", author)print("摘要:", abstract)print("关键词:", keywords)
else:print("无法访问网页")

代码解释

请求头设置：使用请求头模拟浏览器请求，避免被网站屏蔽。
解析网页内容：使用BeautifulSoup解析HTML，提取所需信息。
处理未找到元素的情况：如果元素未找到，输出相应的提示信息。

运行脚本

将上述代码保存为一个Python文件，例如scraper.py，然后在命令行中运行：

python scraper.py

结果

在这里插入图片描述

这篇关于【爬虫】使用Python爬取百度学术页面的标题、作者、摘要和关键词的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

【爬虫】使用Python爬取百度学术页面的标题、作者、摘要和关键词

目录

安装所需库

编写爬虫

代码解释

运行脚本

结果

相关文章

Java中流式并行操作parallelStream的原理和使用方法

Linux join命令的使用及说明

Linux jq命令的使用解读

Linux kill正在执行的后台任务 kill进程组使用详解

详解SpringBoot+Ehcache使用示例

Java 虚拟线程的创建与使用深度解析

k8s按需创建PV和使用PVC详解

Python版本信息获取方法详解与实战

一文详解Python如何开发游戏

Python函数作用域与闭包举例深度解析