python爬取前程无忧职位信息并保存到数据库

2023-10-21 23:59

本文主要是介绍python爬取前程无忧职位信息并保存到数据库,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目标:

    爬取前程无忧的职位信息,包括职位名、公司名、地址、薪资、发布日期这5个项目(本博客为爬取python、位置为深圳、薪资不限、发布日期不限),并保存到mysql数据库

思想:

1,获取完整数据:

先分析url,找出python筛选出你想要的职位的url,由于每个网页显示的内容为50条,这里我们对url进行格式化,让它循环进行爬取下一页的内容,url如下:

url = "https://search.51job.com/list/040000,000000,0000,00,9,99,python,2,{}.html".format(i+1)

然后用request进行网页的爬取,不多说,获取数据的函数如下:

def get_data(i):t = Falseheaders = {'User_Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36'}url = "https://search.51job.com/list/040000,000000,0000,00,9,99,python,2,{}.html".format(i+1)req = request.Request(url,headers=headers)response = request.urlopen(req)if response.getcode() == 200:data = response.read()                #读取响应的数据,byte类型data = str(data,encoding='gbk')with open('index.html',mode='w+',encoding='utf-8') as f:f.write(data)t = Truereturn t

2,解析数据

解析获取到的完整数据,使用beautifulsoup,找到原始数据中我们需要的数据的位置,并取出,保存到列表,返回这个列表,函数如下:

def parse_data():with open('index.html', mode='r', encoding='utf-8') as f:html = f.read()bs =BeautifulSoup(html,'html.parser')      #使用指定html解析器parserdivs = bs.select('#resultList .el')                #  #:代表Id,  .:代表class或spanresult = []                                                         for div in divs[1:]:title = div.select('.t1')[0].get_text(strip=True)company = div.select('.t2')[0].get_text(strip=True)addr = div.select('.t3')[0].get_text(strip=True)salary = div.select('.t4')[0].get_text(strip=True)pubdata = div.select('.t5')[0].get_text(strip=True)row = {'title':    str(title),'company':  str(company),'addr':     str(addr),'salary':   str(salary),'pubdata':  str(pubdata)}result.append(row)#print(type(result[1].values()))return result

3,保存到数据库

def sava_to_mysql(data):config = {'host':         '127.0.0.1','port':         3306,'user':         'root','password':     '','database':     'python_test','charset':      'utf8'}conn = pymysql.connect(**config)cursor = conn.cursor()sql = '''insert into t_job(title, company, addr, salary, pubdata)values (%(title)s,%(company)s,%(addr)s,%(salary)s,%(pubdata)s)'''cursor.executemany(sql,data)          #excutemany 自动进行循环,遍历列表中的数据conn.commit()cursor.close()conn.close()

4,新建数据库

先创建数据库,如何运行python代码

数据库语句如下:

create table t_job(id int primary key auto_increment,title varchar(200),company varchar(200),addr varchar(200),salary varchar(200),pubdata varchar(200)
) engine=Innodb charset utf8;

5,完整python代码如下

from urllib import request
from bs4 import BeautifulSoup
import re
import pymysql
import time#获取数据
def get_data(i):t = Falseheaders = {'User_Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36'}url = "https://search.51job.com/list/040000,000000,0000,00,9,99,python,2,{}.html".format(i+1)req = request.Request(url,headers=headers)response = request.urlopen(req)if response.getcode() == 200:data = response.read()                #读取响应的数据,byte类型data = str(data,encoding='gbk')with open('index.html',mode='w+',encoding='utf-8') as f:f.write(data)t = Truereturn t#print(data)
#解析数据,提取数据def parse_data():with open('index.html', mode='r', encoding='utf-8') as f:html = f.read()bs =BeautifulSoup(html,'html.parser')      #使用指定html解析器parserdivs = bs.select('#resultList .el')                #  #:代表Id,  .:代表class或spanresult = []                                                         for div in divs[1:]:title = div.select('.t1')[0].get_text(strip=True)company = div.select('.t2')[0].get_text(strip=True)addr = div.select('.t3')[0].get_text(strip=True)salary = div.select('.t4')[0].get_text(strip=True)pubdata = div.select('.t5')[0].get_text(strip=True)row = {'title':    str(title),'company':  str(company),'addr':     str(addr),'salary':   str(salary),'pubdata':  str(pubdata)}result.append(row)#print(type(result[1].values()))return result#存储数据到mysql
def sava_to_mysql(data):config = {'host':         '127.0.0.1','port':         3306,'user':         'root','password':     '','database':     'python_test','charset':      'utf8'}conn = pymysql.connect(**config)cursor = conn.cursor()sql = '''insert into t_job(title, company, addr, salary, pubdata)values (%(title)s,%(company)s,%(addr)s,%(salary)s,%(pubdata)s)'''cursor.executemany(sql,data)          #excutemany 自动进行循环,遍历列表中的数据conn.commit()cursor.close()conn.close()if __name__ == '__main__':for i in range(10):get_data(i+1)print(get_data(i+1))if get_data(i+1) == True:sava_to_mysql(parse_data())

6,运行之后查看数据库

如下,由于我们循环了10次,而每个网页只有50条数据,所以数据库中只有500条数据

 

这篇关于python爬取前程无忧职位信息并保存到数据库的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:https://blog.csdn.net/qq_18831583/article/details/87258905
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/257776

相关文章

Python使用FFmpeg实现高效音频格式转换工具

《Python使用FFmpeg实现高效音频格式转换工具》在数字音频处理领域,音频格式转换是一项基础但至关重要的功能,本文主要为大家介绍了Python如何使用FFmpeg实现强大功能的图形化音频转换工具... 目录概述功能详解软件效果展示主界面布局转换过程截图完成提示开发步骤详解1. 环境准备2. 项目功能结

Druid连接池实现自定义数据库密码加解密功能

《Druid连接池实现自定义数据库密码加解密功能》在现代应用开发中,数据安全是至关重要的,本文将介绍如何在​​Druid​​连接池中实现自定义的数据库密码加解密功能,有需要的小伙伴可以参考一下... 目录1. 环境准备2. 密码加密算法的选择3. 自定义 ​​DruidDataSource​​ 的密码解密3

使用Python实现Windows系统垃圾清理

《使用Python实现Windows系统垃圾清理》Windows自带的磁盘清理工具功能有限,无法深度清理各类垃圾文件,所以本文为大家介绍了如何使用Python+PyQt5开发一个Windows系统垃圾... 目录一、开发背景与工具概述1.1 为什么需要专业清理工具1.2 工具设计理念二、工具核心功能解析2.

Maven项目中集成数据库文档生成工具的操作步骤

《Maven项目中集成数据库文档生成工具的操作步骤》在Maven项目中,可以通过集成数据库文档生成工具来自动生成数据库文档,本文为大家整理了使用screw-maven-plugin(推荐)的完... 目录1. 添加插件配置到 pom.XML2. 配置数据库信息3. 执行生成命令4. 高级配置选项5. 注意事

Python实现一键PDF转Word(附完整代码及详细步骤)

《Python实现一键PDF转Word(附完整代码及详细步骤)》pdf2docx是一个基于Python的第三方库,专门用于将PDF文件转换为可编辑的Word文档,下面我们就来看看如何通过pdf2doc... 目录引言:为什么需要PDF转Word一、pdf2docx介绍1. pdf2docx 是什么2. by

Python函数返回多个值的多种方法小结

《Python函数返回多个值的多种方法小结》在Python中,函数通常用于封装一段代码,使其可以重复调用,有时,我们希望一个函数能够返回多个值,Python提供了几种不同的方法来实现这一点,需要的朋友... 目录一、使用元组(Tuple):二、使用列表(list)三、使用字典(Dictionary)四、 使

Python程序的文件头部声明小结

《Python程序的文件头部声明小结》在Python文件的顶部声明编码通常是必须的,尤其是在处理非ASCII字符时,下面就来介绍一下两种头部文件声明,具有一定的参考价值,感兴趣的可以了解一下... 目录一、# coding=utf-8二、#!/usr/bin/env python三、运行Python程序四、

Linux查看系统盘和SSD盘的容量、型号及挂载信息的方法

《Linux查看系统盘和SSD盘的容量、型号及挂载信息的方法》在Linux系统中,管理磁盘设备和分区是日常运维工作的重要部分,而lsblk命令是一个强大的工具,它用于列出系统中的块设备(blockde... 目录1. 查看所有磁盘的物理信息方法 1:使用 lsblk(推荐)方法 2:使用 fdisk -l(

python web 开发之Flask中间件与请求处理钩子的最佳实践

《pythonweb开发之Flask中间件与请求处理钩子的最佳实践》Flask作为轻量级Web框架,提供了灵活的请求处理机制,中间件和请求钩子允许开发者在请求处理的不同阶段插入自定义逻辑,实现诸如... 目录Flask中间件与请求处理钩子完全指南1. 引言2. 请求处理生命周期概述3. 请求钩子详解3.1

使用Python实现网页表格转换为markdown

《使用Python实现网页表格转换为markdown》在日常工作中,我们经常需要从网页上复制表格数据,并将其转换成Markdown格式,本文将使用Python编写一个网页表格转Markdown工具,需... 在日常工作中,我们经常需要从网页上复制表格数据,并将其转换成Markdown格式,以便在文档、邮件或