使用lxml爬取房屋信息(静态网页,无反爬)

2023-10-24 23:10

本文主要是介绍使用lxml爬取房屋信息(静态网页,无反爬),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 先上代码

 后面有解释

import requests
from lxml import etree
import csv
import timeheader = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:104.0) Gecko/20100101 Firefox/104.0"}def download(url):html = requests.get(url, headers=header)time.sleep(2)return etree.HTML(html.text)def data_save(item):with open(r'C:/Users/Administrator/Desktop/lianjia.csv','a',encoding="GB18030",newline="") as f:w = csv.writer(f)w.writerow(item)def spyder(url):selector = download(url)h_list = selector.xpath('//*[@id="content"]/div[1]/ul/li')for house in h_list:name = house.xpath("div[1]/div[2]/div/a[1]/text()")[0]layout = house.xpath("div[1]/div[2]/div/a[2]/text()")[0]area = house.xpath("div[1]/div[3]/div/text()")[0]# area = house.xpath("div[1]/div[3]/div/text()")[0].split()[1]price = house.xpath("div[1]/div[6]/div[2]/span/text()")[0]total = house.xpath("div[1]/div[6]/div[1]/span/text()")[0]item = [name, layout, area, price, total]data_save(item)print(name, "抓取成功")if __name__ == '__main__':pre = 'https://zz.lianjia.com/ershoufang/pg'for x in range(1,10):h_url = pre +str(x)spyder(h_url)

1、安装模块

如果没安装模块,可以详细看看这个

(安装好的可以跳过)

最好使用国内源(清华,阿里,豆瓣,中科大等等。)

以清华源为例:

Terminal(pycharm终端窗口),或者进入Powershell,或者自己的pip位置

查看源

pip config list

如果没有更改源,可以运行以下代码进行更改为清华源

pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

然后进行pip下载会比国外的默认源快

pip install +需要安装的名字

pip install requests
pip install lxml

代码解释

2、导入

import requests
from lxml import etree
import csv
import time

3、伪装浏览器

header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:104.0) Gecko/20100101 Firefox/104.0"}

请求头查看方法:打开浏览器,打开一个网站A,按F12(或者右键单击,然后选择检查),在弹出的窗口最上边选择Network(网络),然后刷新网页A,选择Name,然后右边往下滑动。

def

1、解析网站

def download(url):
# 定义一个download的函数,传入一个参数名称为url的参数

    html = requests.get(url, headers=header)
# 将爬虫模拟get请求访问的信息传递给html(url是参数:访问网站)headers是伪装浏览器请求头

    time.sleep(2)  # 让全局暂停2秒return etree.HTML(html.text)
# 调用lxml中的etree函数的HTML部分,参数是上个代码段中的html的文本(html.text)

2、保存数据

def data_save(item):   # 定义一个名叫data_save的函数with open(r'C:/Users/Administrator/Desktop/lianjia.csv','a',encoding="GB18030",newline="") as f:
# with open是打开的函数,参数:第一个参数是保存位置,r是不转义字符,a是读取方式,encoding是解码方式,newline是换行方式,最后的as f是把with open(参数)简称为fw = csv.writer(f)  #调用csv中的writer()方法w.writerow(item)  # 调用w并写入item

3、爬取数据

def spyder(url):selector = download(url)   # 调用download函数,赋值给selector
# 选取路径h_list = selector.xpath('//*[@id="content"]/div[1]/ul/li') for house in h_list:name = house.xpath("div[1]/div[2]/div/a[1]/text()")[0]layout = house.xpath("div[1]/div[2]/div/a[2]/text()")[0]area = house.xpath("div[1]/div[3]/div/text()")[0]# area = house.xpath("div[1]/div[3]/div/text()")[0].split()[1]price = house.xpath("div[1]/div[6]/div[2]/span/text()")[0]total = house.xpath("div[1]/div[6]/div[1]/span/text()")[0]item = [name, layout, area, price, total]data_save(item)  # 给data_save传递参数print(name, "抓取成功")

选取路径方法:

 

这篇关于使用lxml爬取房屋信息(静态网页,无反爬)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:https://blog.csdn.net/weixin_59243359/article/details/129063910
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/278380

相关文章

使用animation.css库快速实现CSS3旋转动画效果

《使用animation.css库快速实现CSS3旋转动画效果》随着Web技术的不断发展,动画效果已经成为了网页设计中不可或缺的一部分,本文将深入探讨animation.css的工作原理,如何使用以及... 目录1. css3动画技术简介2. animation.css库介绍2.1 animation.cs

使用雪花算法产生id导致前端精度缺失问题解决方案

《使用雪花算法产生id导致前端精度缺失问题解决方案》雪花算法由Twitter提出,设计目的是生成唯一的、递增的ID,下面:本文主要介绍使用雪花算法产生id导致前端精度缺失问题的解决方案,文中通过代... 目录一、问题根源二、解决方案1. 全局配置Jackson序列化规则2. 实体类必须使用Long封装类3.

Python文件操作与IO流的使用方式

《Python文件操作与IO流的使用方式》:本文主要介绍Python文件操作与IO流的使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、python文件操作基础1. 打开文件2. 关闭文件二、文件读写操作1.www.chinasem.cn 读取文件2. 写

PyQt6中QMainWindow组件的使用详解

《PyQt6中QMainWindow组件的使用详解》QMainWindow是PyQt6中用于构建桌面应用程序的基础组件,本文主要介绍了PyQt6中QMainWindow组件的使用,具有一定的参考价值,... 目录1. QMainWindow 组php件概述2. 使用 QMainWindow3. QMainW

使用Python自动化生成PPT并结合LLM生成内容的代码解析

《使用Python自动化生成PPT并结合LLM生成内容的代码解析》PowerPoint是常用的文档工具,但手动设计和排版耗时耗力,本文将展示如何通过Python自动化提取PPT样式并生成新PPT,同时... 目录核心代码解析1. 提取 PPT 样式到 jsON关键步骤:代码片段:2. 应用 JSON 样式到

java变量内存中存储的使用方式

《java变量内存中存储的使用方式》:本文主要介绍java变量内存中存储的使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、介绍2、变量的定义3、 变量的类型4、 变量的作用域5、 内存中的存储方式总结1、介绍在 Java 中,变量是用于存储程序中数据

关于Mybatis和JDBC的使用及区别

《关于Mybatis和JDBC的使用及区别》:本文主要介绍关于Mybatis和JDBC的使用及区别,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、JDBC1.1、流程1.2、优缺点2、MyBATis2.1、执行流程2.2、使用2.3、实现方式1、XML配置文件

macOS Sequoia 15.5 发布: 改进邮件和屏幕使用时间功能

《macOSSequoia15.5发布:改进邮件和屏幕使用时间功能》经过常规Beta测试后,新的macOSSequoia15.5现已公开发布,但重要的新功能将被保留到WWDC和... MACOS Sequoia 15.5 正式发布!本次更新为 Mac 用户带来了一系列功能强化、错误修复和安全性提升,进一步增

Java资源管理和引用体系的使用详解

《Java资源管理和引用体系的使用详解》:本文主要介绍Java资源管理和引用体系的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、Java的引用体系1、强引用 (Strong Reference)2、软引用 (Soft Reference)3、弱引用 (W

ubuntu系统使用官方操作命令升级Dify指南

《ubuntu系统使用官方操作命令升级Dify指南》Dify支持自动化执行、日志记录和结果管理,适用于数据处理、模型训练和部署等场景,今天我们就来看看ubuntu系统中使用官方操作命令升级Dify的方... Dify 是一个基于 docker 的工作流管理工具,旨在简化机器学习和数据科学领域的多步骤工作流。