Python爬取新闻标题及链接存储至MySQL(含源码)

2023-11-09 12:20

本文主要是介绍Python爬取新闻标题及链接存储至MySQL(含源码),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


请求网页: https://www.tsinghua.edu.cn/news.htm/



一. 首先要获取数据,将数据暂存于 list列表

二. 将数据存储至MySQL:
                1.创建连接
                2.创建游标
                3.传入参数,执行命令
                4.数据提交(提交至MySQL)
                5.关闭游标、链接


注意: 运行代码前在MySQL新建表,做到代码与数据库的3个对应:
                        1. 用户名、密码对应
                        2. 数据库名对应
                        3. 传入参数时的表名、表中栏位名对应在这里插入图片描述

运行结果:
在这里插入图片描述


```源码```

import pandas as pd
import pymysql
import requests
from lxml import etree# 请求网址
url = 'https://www.tsinghua.edu.cn/news.htm'
# 请求头
header = {'user_agent': 'Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.93 Safari/537.36'
}
# 获取响应 
response = requests.get(url=url, headers=header).content
# 解码
chi = response.decode('utf-8')
# 解析html
html = etree.HTML(chi)
# 通过xpath解析、筛选获取数据
data = html.xpath('/html/body/div[6]/div/div/ul/li/div[3]/a')for i in data:# 创建列表用于存储爬取的数据list = []# 获取标题 , 并将标题数据加入 list 列表title_text = i.xpath('.//text()')[0]# list.append(title_text)# 获取urltitle_url = i.xpath('./@href')[0]# url 不完整,则拼接成完整url, 并将完整url 加入list列表if 'https' not in str(title_url):stitch_url = 'https://www.tsinghua.edu.cn/' + title_urllist.append([title_text, stitch_url])else:list.append([title_text, title_url])print(list)# MYSQL# 1. 创建链接conn = pymysql.connect(host='127.0.0.1',  # 本地MYSQLuser='root',  # 用户名password='00000',  # 密码port=3306,  # 端口号, 默认就为3306,可写可不写database='gradem',  # 数据库名charset='utf8'  # 编码)# 2. 创建游标cur = conn.cursor()n = 1for l in list:try:# 3. 传入参数, 执行命令cur.execute('insert into list(title, url) values(%s, %s)', (l[0], l[1]))# 4. 数据提交 (提交至MySQL)conn.commit()except Exception as e:# 数据回滚conn.rollback()print('第' + str(n) + '数据存储失败!')n += 1# 5. 关闭游标、连接cur.close()conn.close()

这篇关于Python爬取新闻标题及链接存储至MySQL(含源码)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/376058

相关文章

MySQL数据库约束深入详解

《MySQL数据库约束深入详解》:本文主要介绍MySQL数据库约束,在MySQL数据库中,约束是用来限制进入表中的数据类型的一种技术,通过使用约束,可以确保数据的准确性、完整性和可靠性,需要的朋友... 目录一、数据库约束的概念二、约束类型三、NOT NULL 非空约束四、DEFAULT 默认值约束五、UN

Python中模块graphviz使用入门

《Python中模块graphviz使用入门》graphviz是一个用于创建和操作图形的Python库,本文主要介绍了Python中模块graphviz使用入门,具有一定的参考价值,感兴趣的可以了解一... 目录1.安装2. 基本用法2.1 输出图像格式2.2 图像style设置2.3 属性2.4 子图和聚

Python使用Matplotlib绘制3D曲面图详解

《Python使用Matplotlib绘制3D曲面图详解》:本文主要介绍Python使用Matplotlib绘制3D曲面图,在Python中,使用Matplotlib库绘制3D曲面图可以通过mpl... 目录准备工作绘制简单的 3D 曲面图绘制 3D 曲面图添加线框和透明度控制图形视角Matplotlib

一文教你Python如何快速精准抓取网页数据

《一文教你Python如何快速精准抓取网页数据》这篇文章主要为大家详细介绍了如何利用Python实现快速精准抓取网页数据,文中的示例代码简洁易懂,具有一定的借鉴价值,有需要的小伙伴可以了解下... 目录1. 准备工作2. 基础爬虫实现3. 高级功能扩展3.1 抓取文章详情3.2 保存数据到文件4. 完整示例

MySQL 多表连接操作方法(INNER JOIN、LEFT JOIN、RIGHT JOIN、FULL OUTER JOIN)

《MySQL多表连接操作方法(INNERJOIN、LEFTJOIN、RIGHTJOIN、FULLOUTERJOIN)》多表连接是一种将两个或多个表中的数据组合在一起的SQL操作,通过连接,... 目录一、 什么是多表连接?二、 mysql 支持的连接类型三、 多表连接的语法四、实战示例 数据准备五、连接的性

使用Python实现IP地址和端口状态检测与监控

《使用Python实现IP地址和端口状态检测与监控》在网络运维和服务器管理中,IP地址和端口的可用性监控是保障业务连续性的基础需求,本文将带你用Python从零打造一个高可用IP监控系统,感兴趣的小伙... 目录概述:为什么需要IP监控系统使用步骤说明1. 环境准备2. 系统部署3. 核心功能配置系统效果展

MySQL中的分组和多表连接详解

《MySQL中的分组和多表连接详解》:本文主要介绍MySQL中的分组和多表连接的相关操作,本文通过实例代码给大家介绍的非常详细,感兴趣的朋友一起看看吧... 目录mysql中的分组和多表连接一、MySQL的分组(group javascriptby )二、多表连接(表连接会产生大量的数据垃圾)MySQL中的

基于Python打造一个智能单词管理神器

《基于Python打造一个智能单词管理神器》这篇文章主要为大家详细介绍了如何使用Python打造一个智能单词管理神器,从查询到导出的一站式解决,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 项目概述:为什么需要这个工具2. 环境搭建与快速入门2.1 环境要求2.2 首次运行配置3. 核心功能使用指

Python实现微信自动锁定工具

《Python实现微信自动锁定工具》在数字化办公时代,微信已成为职场沟通的重要工具,但临时离开时忘记锁屏可能导致敏感信息泄露,下面我们就来看看如何使用Python打造一个微信自动锁定工具吧... 目录引言:当微信隐私遇到自动化守护效果展示核心功能全景图技术亮点深度解析1. 无操作检测引擎2. 微信路径智能获

Python中pywin32 常用窗口操作的实现

《Python中pywin32常用窗口操作的实现》本文主要介绍了Python中pywin32常用窗口操作的实现,pywin32主要的作用是供Python开发者快速调用WindowsAPI的一个... 目录获取窗口句柄获取最前端窗口句柄获取指定坐标处的窗口根据窗口的完整标题匹配获取句柄根据窗口的类别匹配获取句