【Python_requests学习笔记(二)】基于requests和lxml模块,爬取链家房产数据

2024-01-23 08:40

本文主要是介绍【Python_requests学习笔记(二)】基于requests和lxml模块,爬取链家房产数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

基于requests和lxml模块,爬取链家房产数据

前言

此篇文章中介绍基于requests,lxml模块和Xpath选择器,爬取链家房产数据的案例。

正文

1、需求梳理

抓取链家二手房网站中的房源信息,如房源名称、地址、户型、面积、方位、是否精装、楼层、年代、类型、总价。

2、爬虫思路

  1. 确认所抓数据在响应内容中是否存在
    所抓取的内容在响应内容中存在在这里插入图片描述
  2. 分析url地址规律
    第一页:https://qd.lianjia.com/ershoufang/pg
    第二页:https://qd.lianjia.com/ershoufang/pg2/
    第三页:https://qd.lianjia.com/ershoufang/pg3/

    第N页:https://qd.lianjia.com/ershoufang/pgn/
    url地址:https://qd.lianjia.com/ershoufang/pg{n}/
  3. 写xpath表达式
    在这里插入图片描述
    从上图li标签中可以看到 检查中存在两个属性:
    clear LOGCLICKDATA
    clear LOGVIEWDATA LOGCLICKDATA
    所以需要通过检查网页源代码中查看,究竟以哪一个为准:
    在这里插入图片描述
    以此确定基准xpath://li[@class='clear LOGVIEWDATA LOGCLICKDATA']
    for循环依次遍历后得到详细信息:
    名称:.//div[@class='positionInfo']/a[1]/text()
    区域:.//div[@class='positionInfo']/a[2]/text()
    详细信息:.//div[@class='houseInfo']/text()
    总价:.//div[@class='totalPrice']/span/text()
    单价:.//div[@class='unitPrice']/span/text()
  4. 编写程序框架、完善程序

注意:

1、在写xpath表达式时一切以响应内容为主
2、页面HTML为最终渲染完之后的,和响应内容的HTML不一定相同
3、防止页面中出现特殊数据,所以在取下标索引前需要先进行判断
4、如果出现特殊页面迟迟不给响应,则设立重试机制

3、程序实现

  1. 初始化函数
    def __init__(self):self.url = 'https://qd.lianjia.com/ershoufang/pg{}/'  # url地址self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36'}  # 重构请求头self.i = 0  # 初始化计数
  1. 获取响应内容函数
    def get_html(self, url):"""function:  获取响应内容函数in:  url:传入的url地址out:  Nonereturn:  int >0 okothers:  Get Response Content Function"""for i in range(3):  # 如果有异常,尝试三次# noinspection PyBroadExceptiontry:html = requests.get(url=url, headers=self.headers, timeout=3).text  # 设置3秒钟的超时时间self.parse_html(html)  # 调用 xpath提取数据函数self.i += 1  # 爬取成功,计数+1print("第{}页爬取成功!".format(self.i))  # 打印break  # 跳出except Exception as e:print("Retry......")  # 捕捉异常
  1. xpath提取数据函数
    def parse_html(self, html):"""function:  xpath提取数据函数in:  html:响应内容out:  Nonereturn:  Noneothers:  Extract Data By Xpath Function"""p = etree.HTML(html)  # 创造解析对象li_list = p.xpath("//li[@class='clear LOGVIEWDATA LOGCLICKDATA']")  # 解析对象调用xpathitem = {}  # 定义一个空字典for li in li_list:  # 遍历 解析对象调用xpath后 得到的数据name_list = li.xpath(".//div[@class='positionInfo']/a[1]/text()")item["名称"] = name_list[0].strip() if name_list else None  # 判断得到的名称列表是否为空address_list = li.xpath(".//div[@class='positionInfo']/a[2]/text()")item["地址"] = address_list[0].strip() if name_list else None  # 判断得到的地址列表是否为空info_li = li.xpath(".//div[@class='houseInfo']/text()")if info_li:  # 判断房源信息是否为空info_li = info_li[0].split("|")  # 用"|"分割if len(info_li) == 7:  # 长度=7item["户型"] = info_li[0].strip()item["面积"] = info_li[1].strip()item["朝向"] = info_li[2].strip()item["装修"] = info_li[3].strip()item["楼层"] = info_li[4].strip()item["年限"] = info_li[5].strip()item["种类"] = info_li[6].strip()else:if len(info_li) == 6:  # 长度=6item["户型"] = info_li[0].strip()item["面积"] = info_li[1].strip()item["朝向"] = info_li[2].strip()item["装修"] = info_li[3].strip()item["楼层"] = info_li[4].strip()item["种类"] = info_li[5].strip()else:if len(info_li) == 8:  # 长度=8item["户型"] = info_li[0].strip()item["面积"] = info_li[1].strip()item["朝向"] = info_li[2].strip()item["装修"] = info_li[3].strip()item["楼层"] = info_li[4].strip()item["年限"] = info_li[5].strip()item["种类"] = info_li[6].strip()item["种类"] += info_li[7].strip()else:item["户型"] = item["面积"] = item["朝向"] = item["装修"] = item["楼层"] = item["年限"] = item["种类"] = Noneelse:item["户型"] = item["面积"] = item["朝向"] = item["装修"] = item["楼层"] = item["年限"] = item["种类"] = Nonetotal_list = li.xpath(".//div[@class='totalPrice totalPrice2']/span/text()")item["总价"] = total_list[0].strip() if total_list else None  # 判断得到的总价列表是否为空unit_list = li.xpath(".//div[@class='unitPrice']/span/text()")item["单价"] = unit_list[0].strip() if unit_list else None  # 判断得到的单价列表是否为空print(item)  # 打印信息
  1. 程序入口函数
    def run(self):"""function:  程序入口函数in:  Noneout:  Nonereturn:  Noneothers:  Program Entry Function"""for pg in range(1, 6):  # 爬取1-5页url = self.url.format(pg)  # 拼接url地址self.get_html(url)  # 调用 获取响应内容函数time.sleep(random.randint(1, 2))  # 1-2s延时

4、完整代码

import time
import random
import requests
from lxml import etreeclass LianjiaSpider:"""链家二手房数据抓取"""def __init__(self):self.url = 'https://qd.lianjia.com/ershoufang/pg{}/'  # url地址self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36'}  # 重构请求头self.i = 0  # 初始化计数def get_html(self, url):"""function:  获取响应内容函数in:  url:传入的url地址out:  Nonereturn:  int >0 okothers:  Get Response Content Function"""for i in range(3):  # 如果有异常,尝试三次# noinspection PyBroadExceptiontry:html = requests.get(url=url, headers=self.headers, timeout=3).text  # 设置3秒钟的超时时间self.parse_html(html)  # 调用 xpath提取数据函数self.i += 1  # 爬取成功,计数+1print("第{}页爬取成功!".format(self.i))  # 打印break  # 跳出except Exception as e:print("Retry......")  # 捕捉异常def parse_html(self, html):"""function:  xpath提取数据函数in:  html:响应内容out:  Nonereturn:  Noneothers:  Extract Data By Xpath Function"""p = etree.HTML(html)  # 创造解析对象li_list = p.xpath("//li[@class='clear LOGVIEWDATA LOGCLICKDATA']")  # 解析对象调用xpathitem = {}  # 定义一个空字典for li in li_list:  # 遍历 解析对象调用xpath后 得到的数据name_list = li.xpath(".//div[@class='positionInfo']/a[1]/text()")item["名称"] = name_list[0].strip() if name_list else None  # 判断得到的名称列表是否为空address_list = li.xpath(".//div[@class='positionInfo']/a[2]/text()")item["地址"] = address_list[0].strip() if name_list else None  # 判断得到的地址列表是否为空info_li = li.xpath(".//div[@class='houseInfo']/text()")if info_li:  # 判断房源信息是否为空info_li = info_li[0].split("|")  # 用"|"分割if len(info_li) == 7:  # 长度=7item["户型"] = info_li[0].strip()item["面积"] = info_li[1].strip()item["朝向"] = info_li[2].strip()item["装修"] = info_li[3].strip()item["楼层"] = info_li[4].strip()item["年限"] = info_li[5].strip()item["种类"] = info_li[6].strip()else:if len(info_li) == 6:  # 长度=6item["户型"] = info_li[0].strip()item["面积"] = info_li[1].strip()item["朝向"] = info_li[2].strip()item["装修"] = info_li[3].strip()item["楼层"] = info_li[4].strip()item["种类"] = info_li[5].strip()else:if len(info_li) == 8:  # 长度=8item["户型"] = info_li[0].strip()item["面积"] = info_li[1].strip()item["朝向"] = info_li[2].strip()item["装修"] = info_li[3].strip()item["楼层"] = info_li[4].strip()item["年限"] = info_li[5].strip()item["种类"] = info_li[6].strip()item["种类"] += info_li[7].strip()else:item["户型"] = item["面积"] = item["朝向"] = item["装修"] = item["楼层"] = item["年限"] = item["种类"] = Noneelse:item["户型"] = item["面积"] = item["朝向"] = item["装修"] = item["楼层"] = item["年限"] = item["种类"] = Nonetotal_list = li.xpath(".//div[@class='totalPrice totalPrice2']/span/text()")item["总价"] = total_list[0].strip() if total_list else None  # 判断得到的总价列表是否为空unit_list = li.xpath(".//div[@class='unitPrice']/span/text()")item["单价"] = unit_list[0].strip() if unit_list else None  # 判断得到的单价列表是否为空print(item)  # 打印信息def run(self):"""function:  程序入口函数in:  Noneout:  Nonereturn:  Noneothers:  Program Entry Function"""for pg in range(1, 6):  # 爬取1-5页url = self.url.format(pg)  # 拼接url地址self.get_html(url)  # 调用 获取响应内容函数time.sleep(random.randint(1, 2))  # 1-2s延时if __name__ == '__main__':spider = LianjiaSpider()  # 类实例化spider.run()  # 调用入口函数

5、实现效果

在这里插入图片描述

这篇关于【Python_requests学习笔记(二)】基于requests和lxml模块,爬取链家房产数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/635840

相关文章

Python实现Excel批量样式修改器(附完整代码)

《Python实现Excel批量样式修改器(附完整代码)》这篇文章主要为大家详细介绍了如何使用Python实现一个Excel批量样式修改器,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一... 目录前言功能特性核心功能界面特性系统要求安装说明使用指南基本操作流程高级功能技术实现核心技术栈关键函

python获取指定名字的程序的文件路径的两种方法

《python获取指定名字的程序的文件路径的两种方法》本文主要介绍了python获取指定名字的程序的文件路径的两种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要... 最近在做项目,需要用到给定一个程序名字就可以自动获取到这个程序在Windows系统下的绝对路径,以下

使用Python批量将.ncm格式的音频文件转换为.mp3格式的实战详解

《使用Python批量将.ncm格式的音频文件转换为.mp3格式的实战详解》本文详细介绍了如何使用Python通过ncmdump工具批量将.ncm音频转换为.mp3的步骤,包括安装、配置ffmpeg环... 目录1. 前言2. 安装 ncmdump3. 实现 .ncm 转 .mp34. 执行过程5. 执行结

Python实现批量CSV转Excel的高性能处理方案

《Python实现批量CSV转Excel的高性能处理方案》在日常办公中,我们经常需要将CSV格式的数据转换为Excel文件,本文将介绍一个基于Python的高性能解决方案,感兴趣的小伙伴可以跟随小编一... 目录一、场景需求二、技术方案三、核心代码四、批量处理方案五、性能优化六、使用示例完整代码七、小结一、

Python中 try / except / else / finally 异常处理方法详解

《Python中try/except/else/finally异常处理方法详解》:本文主要介绍Python中try/except/else/finally异常处理方法的相关资料,涵... 目录1. 基本结构2. 各部分的作用tryexceptelsefinally3. 执行流程总结4. 常见用法(1)多个e

Python中logging模块用法示例总结

《Python中logging模块用法示例总结》在Python中logging模块是一个强大的日志记录工具,它允许用户将程序运行期间产生的日志信息输出到控制台或者写入到文件中,:本文主要介绍Pyt... 目录前言一. 基本使用1. 五种日志等级2.  设置报告等级3. 自定义格式4. C语言风格的格式化方法

Python实现精确小数计算的完全指南

《Python实现精确小数计算的完全指南》在金融计算、科学实验和工程领域,浮点数精度问题一直是开发者面临的重大挑战,本文将深入解析Python精确小数计算技术体系,感兴趣的小伙伴可以了解一下... 目录引言:小数精度问题的核心挑战一、浮点数精度问题分析1.1 浮点数精度陷阱1.2 浮点数误差来源二、基础解决

使用Python实现Word文档的自动化对比方案

《使用Python实现Word文档的自动化对比方案》我们经常需要比较两个Word文档的版本差异,无论是合同修订、论文修改还是代码文档更新,人工比对不仅效率低下,还容易遗漏关键改动,下面通过一个实际案例... 目录引言一、使用python-docx库解析文档结构二、使用difflib进行差异比对三、高级对比方

深度解析Python中递归下降解析器的原理与实现

《深度解析Python中递归下降解析器的原理与实现》在编译器设计、配置文件处理和数据转换领域,递归下降解析器是最常用且最直观的解析技术,本文将详细介绍递归下降解析器的原理与实现,感兴趣的小伙伴可以跟随... 目录引言:解析器的核心价值一、递归下降解析器基础1.1 核心概念解析1.2 基本架构二、简单算术表达

MyBatis-plus处理存储json数据过程

《MyBatis-plus处理存储json数据过程》文章介绍MyBatis-Plus3.4.21处理对象与集合的差异:对象可用内置Handler配合autoResultMap,集合需自定义处理器继承F... 目录1、如果是对象2、如果需要转换的是List集合总结对象和集合分两种情况处理,目前我用的MP的版本