爬虫实战(二) 51job移动端数据采集

2023-10-30 13:10

本文主要是介绍爬虫实战(二) 51job移动端数据采集,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

    在上一篇51job职位信息的爬取中,对岗位信息div下各式各样杂乱的标签,简单的Xpath效果不佳,加上string()函数后,也不尽如人意。因此这次我们跳过桌面web端,选择移动端进行爬取。

 

一、代码结构

    按照下图所示的爬虫基本框架结构,我将此份代码分为四个模块——URL管理、HTML下载、HTML解析以及数据存储。

 

二、URL管理模块

    这个模块负责搜索框关键词与对应页面URL的生成,以及搜索结果不同页数的管理。首先观察某字段(大数据, UTF-8为'E5A4A7 E695B0 E68DAE') 全国范围内的结果,前三页结果的URL如下:

    URL前半部分:

    这部分中我们可以看到两处处不同,第一处为编码后'2,?.html'中间的数字,这是页数。另一处为参数stype的值,除第一页为空之外,其余都为1。另外,URL中有一连串的数字,这些是搜索条件,如地区、行业等,在这儿我没有用上。后面的一连串字符则为搜索关键词的字符编码。值得注意的是,有些符号在URL中是不能直接传输的,如果需要传输的话,就需要对它们进行编码。编码的格式为'%'加上该字符的ASCII码。因此在该URL中,%25即为符号'%'。

    URL后半部分:

    后半部分很明显的就能出首页与后面页面的URL参数相差很大,非首页的URL后半部分相同。

    因此我们需要对某关键字的搜索结果页面分两次处理,第一次处理首页,第二次可使用循环处理后续的页面。

  1. if __name__ == '__main__':  
  2.     key = '数据开发'  
  3.     第一页  
  4.     url = 'https://search.51job.com/list/000000,000000,0000,00,9,99,'+key+',2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare='  
  5.     getUrl(url)  
  6.     后页[2,100)  
  7.     urls = ['https://search.51job.com/list/000000,000000,0000,00,9,99,'+key+',2,{}.html?lang=c&stype=1&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare='.format(i) for i in range(2,30)]  
  8.     for url in urls:  
  9.         getUrl(url)  

 

三、HTML下载模块

    下载HTMl页面分为两个部分,其一为下载搜索结果某一页的HTML页面,另一部分为下载某一岗位具体页面。由于页面中具体岗位URL需要从搜索结果页面中获取,所以将下载搜索结果页面及获取具体岗位URL放入一个函数中,在提取到具体岗位URL后,将其传入至另一函数中。

3.1搜索结果页面下载与解析

    下载页面使用的是requests库的get()方法,得到页面文本后,通过lxml库的etree将其解析为树状结构,再通过Xpath提取我们想要的信息。在搜索结果页面中,我们需要的是具体岗位的URL,打开开发者选项,找到岗位名称。

    我们需要的是<a>标签里的href属性。右键,复制——Xpath,得到该属性的路径。

  1. //*[@id="resultList"]/div/p/span/a/@href  

    由于xpath返回值为一个列表,所以通过一个循环,将列表内URL依次传入下一函数。

  1. def getUrl(url):  
  2.     print('New page')  
  3.     res = requests.get(url)  
  4.     res.encoding = 'GBK'  
  5.     if res.status_code == requests.codes.ok:  
  6.         selector = etree.HTML(res.text)  
  7.         urls = selector.xpath('//*[@id="resultList"]/div/p/span/a/@href')  
  8.         #                      //*[@id="resultList"]/div/p/span/a  
  9.         for url in urls:  
  10.             parseInfo(url)  
  11.             time.sleep(random.randrange(1, 4))  

 

3.2具体岗位信息页面下载

    该函数接收一个具体岗位信息的参数。由于我们需要对移动端网页进行处理,所以在发送请求时需要进行一定的伪装。通过设置headers,使用手机浏览器的用户代理,再调用get()方法。

  1. def parseInfo(url):  
  2.     headers = {  
  3.         'User-Agent''Opera/9.80 (Android 2.3.4; Linux; Opera Mobi/ADR-1301071546) Presto/2.11.355 Version/12.10'  
  4.     }  
  5.     res = requests.get(url, headers=headers)  

 

四、HTML解析模块

    在3.2中,我们已经得到了岗位信息的移动端网页源码,因此再将其转为etree树结构,调用Xpath即可得到我们想要的信息。

    需要注意的是页面里岗位职责div里,所有相关信息都在一个<article>标签下,而不同页面的<article>下层标签并不相同,所以需要将该标签下所有文字都取出,此处用上了string()函数。

 

  1. selector = etree.HTML(res.text)  
  2. title = selector.xpath('//*[@id="pageContent"]/div[1]/div[1]/p/text()')  
  3. salary = selector.xpath('//*[@id="pageContent"]/div[1]/p/text()')  
  4. company = selector.xpath('//*[@id="pageContent"]/div[2]/a[1]/p/text()')  
  5. companyinfo = selector.xpath('//*[@id="pageContent"]/div[2]/a[1]/div/text()')  
  6. companyplace = selector.xpath('//*[@id="pageContent"]/div[2]/a[2]/span/text()')  
  7. place = selector.xpath('//*[@id="pageContent"]/div[1]/div[1]/em/text()')  
  8. exp = selector.xpath('//*[@id="pageContent"]/div[1]/div[2]/span[2]/text()')  
  9. edu = selector.xpath('//*[@id="pageContent"]/div[1]/div[2]/span[3]/text()')  
  10. num = selector.xpath('//*[@id="pageContent"]/div[1]/div[2]/span[1]/text()')  
  11. time = selector.xpath('//*[@id="pageContent"]/div[1]/div[1]/span/text()')  
  12. info = selector.xpath('string(//*[@id="pageContent"]/div[3]/div[2]/article)')  
  13. info = str(info).strip()  

 

五、数据存储模块

    首先创建.csv文件,将不同列名称写入首行。

  1. fp = open('51job.csv','wt',newline='',encoding='GBK',errors='ignore')  
  2. writer = csv.writer(fp)  
  3. writer.writerow(('职位','薪资','公司','公司信息','公司地址','地区','工作经验','学历','人数','时间','岗位信息'))  

    再在解析某一页面数据后,将数据按行写入.csv文件。

  1. writer.writerow((title,salary,company,companyinfo,companyplace,place,exp,edu,num,time,info))  

 

 

源码:爬取51job移动端源码(12月)

 

相关:智联招聘源码分析

    贪吃蛇链表实现及部分模块优化

转载于:https://www.cnblogs.com/magicxyx/p/10128914.html

这篇关于爬虫实战(二) 51job移动端数据采集的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/308147

相关文章

SpringBoot实现RSA+AES自动接口解密的实战指南

《SpringBoot实现RSA+AES自动接口解密的实战指南》在当今数据泄露频发的网络环境中,接口安全已成为开发者不可忽视的核心议题,RSA+AES混合加密方案因其安全性高、性能优越而被广泛采用,本... 目录一、项目依赖与环境准备1.1 Maven依赖配置1.2 密钥生成与配置二、加密工具类实现2.1

Nginx进行平滑升级的实战指南(不中断服务版本更新)

《Nginx进行平滑升级的实战指南(不中断服务版本更新)》Nginx的平滑升级(也称为热升级)是一种在不停止服务的情况下更新Nginx版本或添加模块的方法,这种升级方式确保了服务的高可用性,避免了因升... 目录一.下载并编译新版Nginx1.下载解压2.编译二.替换可执行文件,并平滑升级1.替换可执行文件

把Python列表中的元素移动到开头的三种方法

《把Python列表中的元素移动到开头的三种方法》在Python编程中,我们经常需要对列表(list)进行操作,有时,我们希望将列表中的某个元素移动到最前面,使其成为第一项,本文给大家介绍了把Pyth... 目录一、查找删除插入法1. 找到元素的索引2. 移除元素3. 插入到列表开头二、使用列表切片(Lis

使用Python开发一个Ditto剪贴板数据导出工具

《使用Python开发一个Ditto剪贴板数据导出工具》在日常工作中,我们经常需要处理大量的剪贴板数据,下面将介绍如何使用Python的wxPython库开发一个图形化工具,实现从Ditto数据库中读... 目录前言运行结果项目需求分析技术选型核心功能实现1. Ditto数据库结构分析2. 数据库自动定位3

pandas数据的合并concat()和merge()方式

《pandas数据的合并concat()和merge()方式》Pandas中concat沿轴合并数据框(行或列),merge基于键连接(内/外/左/右),concat用于纵向或横向拼接,merge用于... 目录concat() 轴向连接合并(1) join='outer',axis=0(2)join='o

批量导入txt数据到的redis过程

《批量导入txt数据到的redis过程》用户通过将Redis命令逐行写入txt文件,利用管道模式运行客户端,成功执行批量删除以Product*匹配的Key操作,提高了数据清理效率... 目录批量导入txt数据到Redisjs把redis命令按一条 一行写到txt中管道命令运行redis客户端成功了批量删除k

精选20个好玩又实用的的Python实战项目(有图文代码)

《精选20个好玩又实用的的Python实战项目(有图文代码)》文章介绍了20个实用Python项目,涵盖游戏开发、工具应用、图像处理、机器学习等,使用Tkinter、PIL、OpenCV、Kivy等库... 目录① 猜字游戏② 闹钟③ 骰子模拟器④ 二维码⑤ 语言检测⑥ 加密和解密⑦ URL缩短⑧ 音乐播放

SpringBoot多环境配置数据读取方式

《SpringBoot多环境配置数据读取方式》SpringBoot通过环境隔离机制,支持properties/yaml/yml多格式配置,结合@Value、Environment和@Configura... 目录一、多环境配置的核心思路二、3种配置文件格式详解2.1 properties格式(传统格式)1.

SQL Server跟踪自动统计信息更新实战指南

《SQLServer跟踪自动统计信息更新实战指南》本文详解SQLServer自动统计信息更新的跟踪方法,推荐使用扩展事件实时捕获更新操作及详细信息,同时结合系统视图快速检查统计信息状态,重点强调修... 目录SQL Server 如何跟踪自动统计信息更新:深入解析与实战指南 核心跟踪方法1️⃣ 利用系统目录

解决pandas无法读取csv文件数据的问题

《解决pandas无法读取csv文件数据的问题》本文讲述作者用Pandas读取CSV文件时因参数设置不当导致数据错位,通过调整delimiter和on_bad_lines参数最终解决问题,并强调正确参... 目录一、前言二、问题复现1. 问题2. 通过 on_bad_lines=‘warn’ 跳过异常数据3