scrapy--解析HTML结构数据

2024-08-25 06:36

本文主要是介绍scrapy--解析HTML结构数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

免责声明:本文仅做演示分享...

目录

拿一页:

qczj.py

拿多页:

 构建start_urls自动发请求

手动发请求

详情页数据解析:

总结写法:


汽车之家数据

--用scrapy自带的xpath进行数据解析


拿一页:

qczj.py

    def parse(self, response):# pass# print(response.text)# 基于scrapy的xpath的解析方式:# 响应对象.xpath('xpath表达式')divs = response.xpath('//div[@class="list-cont"]')  # 页面中每个divfor div in divs:# name = div.xpath('.//a[@class="font-bold"]/text()')  # [<Selector对象>]#         # name = div.xpath('.//a[@class="font-bold"]/text()').extract() # ['数据值']#         # name = div.xpath('.//a[@class="font-bold"]/text()').extract_first() # '数据值'#         # name = div.xpath('.//a[@class="font-bold"]/text()').get()  # '数据值'#         # name = div.xpath('.//a[@class="font-bold"]/text()').getall() # ['数据值']#         通过响应对象.xpath得到的是[标签对象]#         如果想要从标签对象中取出文本内容#         返回字符串,用来获取单个:#         get()#         extract_first()#         返回列表,用来获取多个:#         getall()#         extract()name = div.xpath('.//a[@class="font-bold"]/text()').get()# 价格price = div.xpath('.//span[@class="font-arial"]/text()').get()# 其它信息(级别,续航,电动机)# class="info-gray"info = ",".join(div.xpath('.//span[@class="info-gray"]/text()').getall())print(name, price, info)

拿多页:

 构建start_urls自动发请求

    # 第一种写法:列表推导式,循环url并生成# start_urls = [#     f"https://car.autohome.com.cn/diandongche/list-20_25-0-0-0-0-0-0-0-{i}.html"#     for i in range(1, 11)# ]# 第二种写法: 往列表中添加数据 列表.append()# start_urls = []# for i in range(1,11):#     start_urls.append(f'https://car.autohome.com.cn/diandongche/list-20_25-0-0-0-0-0-0-0-{i}.html')

手动发请求

# 先访问第一页数据,进入解析方法start_urls = ['https://car.autohome.com.cn/diandongche/list-20_25-0-0-0-0-0-0-0-
1.html']url = 'https://car.autohome.com.cn/diandongche/list-20_25-0-0-0-0-0-0-0-%s.html'page = 1def parse(self, response):# 获取当前进入解析方法的请求url# print(response.url)divs = response.xpath('//div[@class="list-cont"]')  # 页面中每个divfor div in divs:name = div.xpath('.//a[@class="font-bold"]/text()').get()# 价格price = div.xpath('.//span[@class="font-arial"]/text()').get()# 其它信息(级别,续航,电动机)# class="info-gray"info = ','.join(div.xpath('.//span[@class="info-gray"]/text()').getall())print(name, price, info)# 发起后面的页码请求self.page += 1#         构造urlnext_url = self.url % (self.page)# 发请求# 回调函数 解析数据 把当前parse的地址传给callback# 作用:发完请求之后,继续进入解析方法对其它页数据进行解析if len(divs):# 如果解析出数据还有,就再发请求,否则无法结束yield scrapy.Request(url=next_url,callback=self.parse)

详情页数据解析:

很多情况下我们需要拿到主页列表数据之后,还需要进入详情页进行数据获取,这时候也需要借助手动请求的方式进 行数据获取.

def parse(self, response):divs = response.xpath('//div[@class="list-cont"]')  # 页面中每个divfor div in divs:name = div.xpath('.//a[@class="font-bold"]/text()').get()# 价格price = div.xpath('.//span[@class="font-arial"]/text()').get()# 其它信息(级别,续航,电动机)# class="info-gray"info = ','.join(div.xpath('.//span[@class="info-gray"]/text()').getall())# 存入item对象中item = Scrapy3Item()item['name'] = nameitem['price'] = priceitem['info'] = info# 要去当前汽车的详情页,就需要获取详情页的urldetail_url = div.xpath('.//a[@class="font-bold"]/@href').get()# https://car.autohome.com.cn/diandongche/series-4278.html#pvareaid=2042206#   /diandongche/series-4278.html#pvareaid=2042206# 拼接urldetail_url = 'https://car.autohome.com.cn' + detail_url#           手动对详情页url发起请求# meta参数是用来给回调方法传入数据的,传入的格式是字典,字典的key可以自定义,字典的值是你要传入的数据值yield scrapy.Request(url=detail_url,callback=self.parse_detail,meta=
{'item':item})# 定义一个方法,用来解析详情页数据def parse_detail(self, response):# 获取item数据 meta是个字典,字典再通过键取值item = response.meta['item']divs = response.xpath('//div[@class="interval01-list-cars-infor"]')types_ls = []for div in divs:type = div.xpath('./p[1]/a/text()').get()types_ls.append(type)#     往item对象中添加types属性item['types'] = types_ls print(item)

总结写法:

import scrapy
from scrapy_demo1.items import ScrapyDemo1Itemclass QczjSpider(scrapy.Spider):name = "qczj"# allowed_domains = ["qczj.com"]start_urls = ["https://car.autohome.com.cn/diandongche/list-20_25-0-0-0-0-0-0-0-1.html"]#url = "https://car.autohome.com.cn/diandongche/list-20_25-0-0-0-0-0-0-0-%s.html"# # 拿多页数据:# 分页的思路:# 因为框架自动从start_urls中拿到url自动发起请求# 如果要实现分页,只需要把分页的url放入列表即可page = 1def parse(self, response):divs = response.xpath('//div[@class="list-cont"]')  # 页面中每个divfor div in divs:name = div.xpath('.//a[@class="font-bold"]/text()').get()# 价格price = div.xpath('.//span[@class="font-arial"]/text()').get()# 其它信息(级别,续航,电动机)# class="info-gray"info = ",".join(div.xpath('.//span[@class="info-gray"]/text()').getall())# 存入item对象中item = ScrapyDemo1Item()item["name"] = nameitem["price"] = priceitem["info"] = info# 要去当前汽车的详情页,就需要获取详情页的urldetail_url = div.xpath('.//a[@class="font-bold"]/@href').get()# https://car.autohome.com.cn/diandongche/series-4278.html#pvareaid=2042206#    /diandongche/series-4278.html#pvareaid=2042206# 拼接urldetail_url = "https://car.autohome.com.cn" + detail_url#           手动对详情页url发起请求yield scrapy.Request(url=detail_url,callback=self.parse_detail,meta={"item": item},  # 传递item对象. 键随便写,值就是item对象.)# 定义一个方法,用来解析详情页数据#进入详细页数据:# https://car.autohome.com.cn/diandongche/series-4278.html#pvareaid=2042206def parse_detail(self, response):# 2个不同的方法,这个字段怎么存呢???item = response.meta["item"]  # 取出item对象divs = response.xpath('//div[@class="interval01-list-cars-infor"]')types_ls = []for div in divs:type = div.xpath("./p[1]/a/text()").get()types_ls.append(type)# 往item对象中添加types属性:item["types"] = types_ls# print(item)yield item  # 这里返回item对象,会自动存入到pipelines中.

 

 

 等等...


这篇关于scrapy--解析HTML结构数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1104817

相关文章

Mysql数据库中数据的操作CRUD详解

《Mysql数据库中数据的操作CRUD详解》:本文主要介绍Mysql数据库中数据的操作(CRUD),详细描述对Mysql数据库中数据的操作(CRUD),包括插入、修改、删除数据,还有查询数据,包括... 目录一、插入数据(insert)1.插入数据的语法2.注意事项二、修改数据(update)1.语法2.有

SQL 外键Foreign Key全解析

《SQL外键ForeignKey全解析》外键是数据库表中的一列(或一组列),用于​​建立两个表之间的关联关系​​,外键的值必须匹配另一个表的主键(PrimaryKey)或唯一约束(UniqueCo... 目录1. 什么是外键?​​ ​​​​2. 外键的语法​​​​3. 外键的约束行为​​​​4. 多列外键​

CSS3 布局样式及其应用举例

《CSS3布局样式及其应用举例》CSS3的布局特性为前端开发者提供了无限可能,无论是Flexbox的一维布局还是Grid的二维布局,它们都能够帮助开发者以更清晰、简洁的方式实现复杂的网页布局,本文给... 目录深入探讨 css3 布局样式及其应用引言一、CSS布局的历史与发展1.1 早期布局的局限性1.2

使用animation.css库快速实现CSS3旋转动画效果

《使用animation.css库快速实现CSS3旋转动画效果》随着Web技术的不断发展,动画效果已经成为了网页设计中不可或缺的一部分,本文将深入探讨animation.css的工作原理,如何使用以及... 目录1. css3动画技术简介2. animation.css库介绍2.1 animation.cs

CSS引入方式和选择符的讲解和运用小结

《CSS引入方式和选择符的讲解和运用小结》CSS即层叠样式表,是一种用于描述网页文档(如HTML或XML)外观和格式的样式表语言,它主要用于将网页内容的呈现(外观)和结构(内容)分离,从而实现... 目录一、前言二、css 是什么三、CSS 引入方式1、行内样式2、内部样式表3、链入外部样式表四、CSS 选

Java进行日期解析与格式化的实现代码

《Java进行日期解析与格式化的实现代码》使用Java搭配ApacheCommonsLang3和Natty库,可以实现灵活高效的日期解析与格式化,本文将通过相关示例为大家讲讲具体的实践操作,需要的可以... 目录一、背景二、依赖介绍1. Apache Commons Lang32. Natty三、核心实现代

使用雪花算法产生id导致前端精度缺失问题解决方案

《使用雪花算法产生id导致前端精度缺失问题解决方案》雪花算法由Twitter提出,设计目的是生成唯一的、递增的ID,下面:本文主要介绍使用雪花算法产生id导致前端精度缺失问题的解决方案,文中通过代... 目录一、问题根源二、解决方案1. 全局配置Jackson序列化规则2. 实体类必须使用Long封装类3.

SpringBoot实现接口数据加解密的三种实战方案

《SpringBoot实现接口数据加解密的三种实战方案》在金融支付、用户隐私信息传输等场景中,接口数据若以明文传输,极易被中间人攻击窃取,SpringBoot提供了多种优雅的加解密实现方案,本文将从原... 目录一、为什么需要接口数据加解密?二、核心加解密算法选择1. 对称加密(AES)2. 非对称加密(R

详解如何在SpringBoot控制器中处理用户数据

《详解如何在SpringBoot控制器中处理用户数据》在SpringBoot应用开发中,控制器(Controller)扮演着至关重要的角色,它负责接收用户请求、处理数据并返回响应,本文将深入浅出地讲解... 目录一、获取请求参数1.1 获取查询参数1.2 获取路径参数二、处理表单提交2.1 处理表单数据三、

使用Python自动化生成PPT并结合LLM生成内容的代码解析

《使用Python自动化生成PPT并结合LLM生成内容的代码解析》PowerPoint是常用的文档工具,但手动设计和排版耗时耗力,本文将展示如何通过Python自动化提取PPT样式并生成新PPT,同时... 目录核心代码解析1. 提取 PPT 样式到 jsON关键步骤:代码片段:2. 应用 JSON 样式到