使用Xpath和Requests实现爬虫并存储在Excel表里

2023-10-21 05:38

本文主要是介绍使用Xpath和Requests实现爬虫并存储在Excel表里,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

爬的是杭州近期的的新房价

# encoding: utf-8
"""
@author: Ruvik
@software: PyCharm
@file: Spider_House.py
@time: 2020/7/9 20:12
"""# 爬一下链家网上杭州新房的价格
import requests                 # 进行网络请求
import xlwt                     # 与excel相关的操作
from lxml import etree          # 引入xpath库,方便定位元素
import time                     # 进行访问频率控制
import random                   # 随机数生成
import re                       # 正则表达式# 主程序
def main():base_url = "https://hz.fang.lianjia.com/loupan/pg"     # 最基本的网址,后续会根据这个进行翻页操作Savepath = ".\\杭州新房价.xls"                           # 存储路径datalist = getdata(base_url)savedata(datalist, Savepath)# 获取html源码
def ask_url(url):html=""headers={          # 进行伪装,防止416错误,模拟浏览器头部信息,向豆瓣服务器发送消息"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36"}try:response = requests.get(url,headers=headers,timeout=10)  # 用户代理,表示告诉豆瓣服务器,我们是什么类型的机器、浏览器(本质上是告诉浏览器,我们可以接收什么水平的文件内容)time.sleep(random.randint(3, 6))                        # 每隔3-6s执行一次请求# print(response.status_code)html = response.content                                     # 获取网页的html源代码# print(html)print("请求访问成功")except requests.exceptions.RequestException as e:print("超时")print(e)return html# 从html源码中获取信息
def getdata(baseurl):Datalist = []                                 # 用来存储已经经过处理的信息for i in range(1, 100):                     # 在1-100页内爬取房价的信息url = baseurl+str(i)                    # 拼接url网址,进行换页# print(url)data = ask_url(url)                     # 获取到源代码# 从源代码中提取信息if data != "":html_data = etree.HTML(data)div_list = html_data.xpath('//div[@class="resblock-desc-wrapper"]')# print(len(div_list))for item in div_list:data_item = []# 提取详情链接link = "https://hz.fang.lianjia.com"link += item.xpath('./div/a/@href')[0]data_item.append(link)# print(link)# 提取名字name = item.xpath("./div/a/text()")[0]data_item.append(name)# print(name)# 提取地址loc = item.xpath('./div[@class="resblock-location"]/span/text()')location = loc[0] +"|"+ loc[1] +"|"+ item.xpath('./div[@class="resblock-location"]/a/text()')[0]data_item.append(location)# print(location)# 提取户型room = item.xpath('./a[@class="resblock-room"]/span/text()')rooms = ""for k in range(len(room)):if k < len(room) - 1:rooms += str(room[k]) + "|"else:rooms += str(room[k])# print(rooms)data_item.append(rooms)# 提取大小size = item.xpath('./div[@class="resblock-area"]/span/text()')if len(size) != 0:data_item.append(size[0])# print(size[0])else:data_item.append(" ")# 提取标签tag = item.xpath('./div[@class="resblock-tag"]/span/text()')tags = ""for k in range(len(tag)):if k < len(tag)-1:tags += str(tag[k]) + "|"else:tags += str(tag[k])# print(tags)data_item.append(tags)# 提取价格Price = ""price = item.xpath('./div[@class="resblock-price"]/div/span/text()')for k in range(len(price)):Price += price[k]Price = re.sub('\xa0', "", Price)     # 去掉“\xa0”字符# print(Price)data_item.append(Price)Datalist.append(data_item)print(len(Datalist))return Datalist# 将html获取的信息存入Excel表格中def savedata(Datalist,Savapath):col = ("链接", "名字", "地址", "户型", "大小", "标签", "价格")                # Excel的表头house_list = xlwt.Workbook(encoding="utf-8", style_compression=0)       # 创建workbook对象worksheet = house_list.add_sheet("HouseList", cell_overwrite_ok=True)   # 新建工作区,设为可覆盖for i in range(0, 7):                                                   # 写入表头worksheet.write(0, i, col[i])for i in range(0, 990):                                                 # 写入数据print("正在写入第%d条数据" % (i + 1))item = Datalist[i]for j in range(0, 7):worksheet.write(i + 1, j, item[j])house_list.save(Savapath)                                               # 存储# 程序从这里开始执行
if __name__ == "__main__":main()print("爬取完毕!")

这篇关于使用Xpath和Requests实现爬虫并存储在Excel表里的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/252293

相关文章

Java中流式并行操作parallelStream的原理和使用方法

《Java中流式并行操作parallelStream的原理和使用方法》本文详细介绍了Java中的并行流(parallelStream)的原理、正确使用方法以及在实际业务中的应用案例,并指出在使用并行流... 目录Java中流式并行操作parallelStream0. 问题的产生1. 什么是parallelS

C++中unordered_set哈希集合的实现

《C++中unordered_set哈希集合的实现》std::unordered_set是C++标准库中的无序关联容器,基于哈希表实现,具有元素唯一性和无序性特点,本文就来详细的介绍一下unorder... 目录一、概述二、头文件与命名空间三、常用方法与示例1. 构造与析构2. 迭代器与遍历3. 容量相关4

Linux join命令的使用及说明

《Linuxjoin命令的使用及说明》`join`命令用于在Linux中按字段将两个文件进行连接,类似于SQL的JOIN,它需要两个文件按用于匹配的字段排序,并且第一个文件的换行符必须是LF,`jo... 目录一. 基本语法二. 数据准备三. 指定文件的连接key四.-a输出指定文件的所有行五.-o指定输出

Linux jq命令的使用解读

《Linuxjq命令的使用解读》jq是一个强大的命令行工具,用于处理JSON数据,它可以用来查看、过滤、修改、格式化JSON数据,通过使用各种选项和过滤器,可以实现复杂的JSON处理任务... 目录一. 简介二. 选项2.1.2.2-c2.3-r2.4-R三. 字段提取3.1 普通字段3.2 数组字段四.

C++中悬垂引用(Dangling Reference) 的实现

《C++中悬垂引用(DanglingReference)的实现》C++中的悬垂引用指引用绑定的对象被销毁后引用仍存在的情况,会导致访问无效内存,下面就来详细的介绍一下产生的原因以及如何避免,感兴趣... 目录悬垂引用的产生原因1. 引用绑定到局部变量,变量超出作用域后销毁2. 引用绑定到动态分配的对象,对象

Linux kill正在执行的后台任务 kill进程组使用详解

《Linuxkill正在执行的后台任务kill进程组使用详解》文章介绍了两个脚本的功能和区别,以及执行这些脚本时遇到的进程管理问题,通过查看进程树、使用`kill`命令和`lsof`命令,分析了子... 目录零. 用到的命令一. 待执行的脚本二. 执行含子进程的脚本,并kill2.1 进程查看2.2 遇到的

SpringBoot基于注解实现数据库字段回填的完整方案

《SpringBoot基于注解实现数据库字段回填的完整方案》这篇文章主要为大家详细介绍了SpringBoot如何基于注解实现数据库字段回填的相关方法,文中的示例代码讲解详细,感兴趣的小伙伴可以了解... 目录数据库表pom.XMLRelationFieldRelationFieldMapping基础的一些代

Java HashMap的底层实现原理深度解析

《JavaHashMap的底层实现原理深度解析》HashMap基于数组+链表+红黑树结构,通过哈希算法和扩容机制优化性能,负载因子与树化阈值平衡效率,是Java开发必备的高效数据结构,本文给大家介绍... 目录一、概述:HashMap的宏观结构二、核心数据结构解析1. 数组(桶数组)2. 链表节点(Node

Java AOP面向切面编程的概念和实现方式

《JavaAOP面向切面编程的概念和实现方式》AOP是面向切面编程,通过动态代理将横切关注点(如日志、事务)与核心业务逻辑分离,提升代码复用性和可维护性,本文给大家介绍JavaAOP面向切面编程的概... 目录一、AOP 是什么?二、AOP 的核心概念与实现方式核心概念实现方式三、Spring AOP 的关

详解SpringBoot+Ehcache使用示例

《详解SpringBoot+Ehcache使用示例》本文介绍了SpringBoot中配置Ehcache、自定义get/set方式,并实际使用缓存的过程,文中通过示例代码介绍的非常详细,对大家的学习或者... 目录摘要概念内存与磁盘持久化存储:配置灵活性:编码示例引入依赖:配置ehcache.XML文件:配置