python爬取前程无忧职位信息并保存到数据库

2023-10-21 23:59

本文主要是介绍python爬取前程无忧职位信息并保存到数据库,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目标:

    爬取前程无忧的职位信息,包括职位名、公司名、地址、薪资、发布日期这5个项目(本博客为爬取python、位置为深圳、薪资不限、发布日期不限),并保存到mysql数据库

思想:

1,获取完整数据:

先分析url,找出python筛选出你想要的职位的url,由于每个网页显示的内容为50条,这里我们对url进行格式化,让它循环进行爬取下一页的内容,url如下:

url = "https://search.51job.com/list/040000,000000,0000,00,9,99,python,2,{}.html".format(i+1)

然后用request进行网页的爬取,不多说,获取数据的函数如下:

def get_data(i):t = Falseheaders = {'User_Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36'}url = "https://search.51job.com/list/040000,000000,0000,00,9,99,python,2,{}.html".format(i+1)req = request.Request(url,headers=headers)response = request.urlopen(req)if response.getcode() == 200:data = response.read()                #读取响应的数据,byte类型data = str(data,encoding='gbk')with open('index.html',mode='w+',encoding='utf-8') as f:f.write(data)t = Truereturn t

2,解析数据

解析获取到的完整数据,使用beautifulsoup,找到原始数据中我们需要的数据的位置,并取出,保存到列表,返回这个列表,函数如下:

def parse_data():with open('index.html', mode='r', encoding='utf-8') as f:html = f.read()bs =BeautifulSoup(html,'html.parser')      #使用指定html解析器parserdivs = bs.select('#resultList .el')                #  #:代表Id,  .:代表class或spanresult = []                                                         for div in divs[1:]:title = div.select('.t1')[0].get_text(strip=True)company = div.select('.t2')[0].get_text(strip=True)addr = div.select('.t3')[0].get_text(strip=True)salary = div.select('.t4')[0].get_text(strip=True)pubdata = div.select('.t5')[0].get_text(strip=True)row = {'title':    str(title),'company':  str(company),'addr':     str(addr),'salary':   str(salary),'pubdata':  str(pubdata)}result.append(row)#print(type(result[1].values()))return result

3,保存到数据库

def sava_to_mysql(data):config = {'host':         '127.0.0.1','port':         3306,'user':         'root','password':     '','database':     'python_test','charset':      'utf8'}conn = pymysql.connect(**config)cursor = conn.cursor()sql = '''insert into t_job(title, company, addr, salary, pubdata)values (%(title)s,%(company)s,%(addr)s,%(salary)s,%(pubdata)s)'''cursor.executemany(sql,data)          #excutemany 自动进行循环,遍历列表中的数据conn.commit()cursor.close()conn.close()

4,新建数据库

先创建数据库,如何运行python代码

数据库语句如下:

create table t_job(id int primary key auto_increment,title varchar(200),company varchar(200),addr varchar(200),salary varchar(200),pubdata varchar(200)
) engine=Innodb charset utf8;

5,完整python代码如下

from urllib import request
from bs4 import BeautifulSoup
import re
import pymysql
import time#获取数据
def get_data(i):t = Falseheaders = {'User_Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36'}url = "https://search.51job.com/list/040000,000000,0000,00,9,99,python,2,{}.html".format(i+1)req = request.Request(url,headers=headers)response = request.urlopen(req)if response.getcode() == 200:data = response.read()                #读取响应的数据,byte类型data = str(data,encoding='gbk')with open('index.html',mode='w+',encoding='utf-8') as f:f.write(data)t = Truereturn t#print(data)
#解析数据,提取数据def parse_data():with open('index.html', mode='r', encoding='utf-8') as f:html = f.read()bs =BeautifulSoup(html,'html.parser')      #使用指定html解析器parserdivs = bs.select('#resultList .el')                #  #:代表Id,  .:代表class或spanresult = []                                                         for div in divs[1:]:title = div.select('.t1')[0].get_text(strip=True)company = div.select('.t2')[0].get_text(strip=True)addr = div.select('.t3')[0].get_text(strip=True)salary = div.select('.t4')[0].get_text(strip=True)pubdata = div.select('.t5')[0].get_text(strip=True)row = {'title':    str(title),'company':  str(company),'addr':     str(addr),'salary':   str(salary),'pubdata':  str(pubdata)}result.append(row)#print(type(result[1].values()))return result#存储数据到mysql
def sava_to_mysql(data):config = {'host':         '127.0.0.1','port':         3306,'user':         'root','password':     '','database':     'python_test','charset':      'utf8'}conn = pymysql.connect(**config)cursor = conn.cursor()sql = '''insert into t_job(title, company, addr, salary, pubdata)values (%(title)s,%(company)s,%(addr)s,%(salary)s,%(pubdata)s)'''cursor.executemany(sql,data)          #excutemany 自动进行循环,遍历列表中的数据conn.commit()cursor.close()conn.close()if __name__ == '__main__':for i in range(10):get_data(i+1)print(get_data(i+1))if get_data(i+1) == True:sava_to_mysql(parse_data())

6,运行之后查看数据库

如下,由于我们循环了10次,而每个网页只有50条数据,所以数据库中只有500条数据

 

这篇关于python爬取前程无忧职位信息并保存到数据库的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/257776

相关文章

Mysql数据库聚簇索引与非聚簇索引举例详解

《Mysql数据库聚簇索引与非聚簇索引举例详解》在MySQL中聚簇索引和非聚簇索引是两种常见的索引结构,它们的主要区别在于数据的存储方式和索引的组织方式,:本文主要介绍Mysql数据库聚簇索引与非... 目录前言一、核心概念与本质区别二、聚簇索引(Clustered Index)1. 实现原理(以 Inno

使用python生成固定格式序号的方法详解

《使用python生成固定格式序号的方法详解》这篇文章主要为大家详细介绍了如何使用python生成固定格式序号,文中的示例代码讲解详细,具有一定的借鉴价值,有需要的小伙伴可以参考一下... 目录生成结果验证完整生成代码扩展说明1. 保存到文本文件2. 转换为jsON格式3. 处理特殊序号格式(如带圈数字)4

MySQL数据库双机热备的配置方法详解

《MySQL数据库双机热备的配置方法详解》在企业级应用中,数据库的高可用性和数据的安全性是至关重要的,MySQL作为最流行的开源关系型数据库管理系统之一,提供了多种方式来实现高可用性,其中双机热备(M... 目录1. 环境准备1.1 安装mysql1.2 配置MySQL1.2.1 主服务器配置1.2.2 从

SpringBoot基于注解实现数据库字段回填的完整方案

《SpringBoot基于注解实现数据库字段回填的完整方案》这篇文章主要为大家详细介绍了SpringBoot如何基于注解实现数据库字段回填的相关方法,文中的示例代码讲解详细,感兴趣的小伙伴可以了解... 目录数据库表pom.XMLRelationFieldRelationFieldMapping基础的一些代

Python版本信息获取方法详解与实战

《Python版本信息获取方法详解与实战》在Python开发中,获取Python版本号是调试、兼容性检查和版本控制的重要基础操作,本文详细介绍了如何使用sys和platform模块获取Python的主... 目录1. python版本号获取基础2. 使用sys模块获取版本信息2.1 sys模块概述2.1.1

一文详解Python如何开发游戏

《一文详解Python如何开发游戏》Python是一种非常流行的编程语言,也可以用来开发游戏模组,:本文主要介绍Python如何开发游戏的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下... 目录一、python简介二、Python 开发 2D 游戏的优劣势优势缺点三、Python 开发 3D

Python函数作用域与闭包举例深度解析

《Python函数作用域与闭包举例深度解析》Python函数的作用域规则和闭包是编程中的关键概念,它们决定了变量的访问和生命周期,:本文主要介绍Python函数作用域与闭包的相关资料,文中通过代码... 目录1. 基础作用域访问示例1:访问全局变量示例2:访问外层函数变量2. 闭包基础示例3:简单闭包示例4

Python实现字典转字符串的五种方法

《Python实现字典转字符串的五种方法》本文介绍了在Python中如何将字典数据结构转换为字符串格式的多种方法,首先可以通过内置的str()函数进行简单转换;其次利用ison.dumps()函数能够... 目录1、使用json模块的dumps方法:2、使用str方法:3、使用循环和字符串拼接:4、使用字符

Python版本与package版本兼容性检查方法总结

《Python版本与package版本兼容性检查方法总结》:本文主要介绍Python版本与package版本兼容性检查方法的相关资料,文中提供四种检查方法,分别是pip查询、conda管理、PyP... 目录引言为什么会出现兼容性问题方法一:用 pip 官方命令查询可用版本方法二:conda 管理包环境方法

基于Python开发Windows自动更新控制工具

《基于Python开发Windows自动更新控制工具》在当今数字化时代,操作系统更新已成为计算机维护的重要组成部分,本文介绍一款基于Python和PyQt5的Windows自动更新控制工具,有需要的可... 目录设计原理与技术实现系统架构概述数学建模工具界面完整代码实现技术深度分析多层级控制理论服务层控制注