scrapy--解析HTML结构数据

2024-08-25 06:36

本文主要是介绍scrapy--解析HTML结构数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

免责声明:本文仅做演示分享...

目录

拿一页:

qczj.py

拿多页:

 构建start_urls自动发请求

手动发请求

详情页数据解析:

总结写法:


汽车之家数据

--用scrapy自带的xpath进行数据解析


拿一页:

qczj.py

    def parse(self, response):# pass# print(response.text)# 基于scrapy的xpath的解析方式:# 响应对象.xpath('xpath表达式')divs = response.xpath('//div[@class="list-cont"]')  # 页面中每个divfor div in divs:# name = div.xpath('.//a[@class="font-bold"]/text()')  # [<Selector对象>]#         # name = div.xpath('.//a[@class="font-bold"]/text()').extract() # ['数据值']#         # name = div.xpath('.//a[@class="font-bold"]/text()').extract_first() # '数据值'#         # name = div.xpath('.//a[@class="font-bold"]/text()').get()  # '数据值'#         # name = div.xpath('.//a[@class="font-bold"]/text()').getall() # ['数据值']#         通过响应对象.xpath得到的是[标签对象]#         如果想要从标签对象中取出文本内容#         返回字符串,用来获取单个:#         get()#         extract_first()#         返回列表,用来获取多个:#         getall()#         extract()name = div.xpath('.//a[@class="font-bold"]/text()').get()# 价格price = div.xpath('.//span[@class="font-arial"]/text()').get()# 其它信息(级别,续航,电动机)# class="info-gray"info = ",".join(div.xpath('.//span[@class="info-gray"]/text()').getall())print(name, price, info)

拿多页:

 构建start_urls自动发请求

    # 第一种写法:列表推导式,循环url并生成# start_urls = [#     f"https://car.autohome.com.cn/diandongche/list-20_25-0-0-0-0-0-0-0-{i}.html"#     for i in range(1, 11)# ]# 第二种写法: 往列表中添加数据 列表.append()# start_urls = []# for i in range(1,11):#     start_urls.append(f'https://car.autohome.com.cn/diandongche/list-20_25-0-0-0-0-0-0-0-{i}.html')

手动发请求

# 先访问第一页数据,进入解析方法start_urls = ['https://car.autohome.com.cn/diandongche/list-20_25-0-0-0-0-0-0-0-
1.html']url = 'https://car.autohome.com.cn/diandongche/list-20_25-0-0-0-0-0-0-0-%s.html'page = 1def parse(self, response):# 获取当前进入解析方法的请求url# print(response.url)divs = response.xpath('//div[@class="list-cont"]')  # 页面中每个divfor div in divs:name = div.xpath('.//a[@class="font-bold"]/text()').get()# 价格price = div.xpath('.//span[@class="font-arial"]/text()').get()# 其它信息(级别,续航,电动机)# class="info-gray"info = ','.join(div.xpath('.//span[@class="info-gray"]/text()').getall())print(name, price, info)# 发起后面的页码请求self.page += 1#         构造urlnext_url = self.url % (self.page)# 发请求# 回调函数 解析数据 把当前parse的地址传给callback# 作用:发完请求之后,继续进入解析方法对其它页数据进行解析if len(divs):# 如果解析出数据还有,就再发请求,否则无法结束yield scrapy.Request(url=next_url,callback=self.parse)

详情页数据解析:

很多情况下我们需要拿到主页列表数据之后,还需要进入详情页进行数据获取,这时候也需要借助手动请求的方式进 行数据获取.

def parse(self, response):divs = response.xpath('//div[@class="list-cont"]')  # 页面中每个divfor div in divs:name = div.xpath('.//a[@class="font-bold"]/text()').get()# 价格price = div.xpath('.//span[@class="font-arial"]/text()').get()# 其它信息(级别,续航,电动机)# class="info-gray"info = ','.join(div.xpath('.//span[@class="info-gray"]/text()').getall())# 存入item对象中item = Scrapy3Item()item['name'] = nameitem['price'] = priceitem['info'] = info# 要去当前汽车的详情页,就需要获取详情页的urldetail_url = div.xpath('.//a[@class="font-bold"]/@href').get()# https://car.autohome.com.cn/diandongche/series-4278.html#pvareaid=2042206#   /diandongche/series-4278.html#pvareaid=2042206# 拼接urldetail_url = 'https://car.autohome.com.cn' + detail_url#           手动对详情页url发起请求# meta参数是用来给回调方法传入数据的,传入的格式是字典,字典的key可以自定义,字典的值是你要传入的数据值yield scrapy.Request(url=detail_url,callback=self.parse_detail,meta=
{'item':item})# 定义一个方法,用来解析详情页数据def parse_detail(self, response):# 获取item数据 meta是个字典,字典再通过键取值item = response.meta['item']divs = response.xpath('//div[@class="interval01-list-cars-infor"]')types_ls = []for div in divs:type = div.xpath('./p[1]/a/text()').get()types_ls.append(type)#     往item对象中添加types属性item['types'] = types_ls print(item)

总结写法:

import scrapy
from scrapy_demo1.items import ScrapyDemo1Itemclass QczjSpider(scrapy.Spider):name = "qczj"# allowed_domains = ["qczj.com"]start_urls = ["https://car.autohome.com.cn/diandongche/list-20_25-0-0-0-0-0-0-0-1.html"]#url = "https://car.autohome.com.cn/diandongche/list-20_25-0-0-0-0-0-0-0-%s.html"# # 拿多页数据:# 分页的思路:# 因为框架自动从start_urls中拿到url自动发起请求# 如果要实现分页,只需要把分页的url放入列表即可page = 1def parse(self, response):divs = response.xpath('//div[@class="list-cont"]')  # 页面中每个divfor div in divs:name = div.xpath('.//a[@class="font-bold"]/text()').get()# 价格price = div.xpath('.//span[@class="font-arial"]/text()').get()# 其它信息(级别,续航,电动机)# class="info-gray"info = ",".join(div.xpath('.//span[@class="info-gray"]/text()').getall())# 存入item对象中item = ScrapyDemo1Item()item["name"] = nameitem["price"] = priceitem["info"] = info# 要去当前汽车的详情页,就需要获取详情页的urldetail_url = div.xpath('.//a[@class="font-bold"]/@href').get()# https://car.autohome.com.cn/diandongche/series-4278.html#pvareaid=2042206#    /diandongche/series-4278.html#pvareaid=2042206# 拼接urldetail_url = "https://car.autohome.com.cn" + detail_url#           手动对详情页url发起请求yield scrapy.Request(url=detail_url,callback=self.parse_detail,meta={"item": item},  # 传递item对象. 键随便写,值就是item对象.)# 定义一个方法,用来解析详情页数据#进入详细页数据:# https://car.autohome.com.cn/diandongche/series-4278.html#pvareaid=2042206def parse_detail(self, response):# 2个不同的方法,这个字段怎么存呢???item = response.meta["item"]  # 取出item对象divs = response.xpath('//div[@class="interval01-list-cars-infor"]')types_ls = []for div in divs:type = div.xpath("./p[1]/a/text()").get()types_ls.append(type)# 往item对象中添加types属性:item["types"] = types_ls# print(item)yield item  # 这里返回item对象,会自动存入到pipelines中.

 

 

 等等...


这篇关于scrapy--解析HTML结构数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1104817

相关文章

MySQL字符串转数值的方法全解析

《MySQL字符串转数值的方法全解析》在MySQL开发中,字符串与数值的转换是高频操作,本文从隐式转换原理、显式转换方法、典型场景案例、风险防控四个维度系统梳理,助您精准掌握这一核心技能,需要的朋友可... 目录一、隐式转换:自动但需警惕的&ld编程quo;双刃剑”二、显式转换:三大核心方法详解三、典型场景

MySQL快速复制一张表的四种核心方法(包括表结构和数据)

《MySQL快速复制一张表的四种核心方法(包括表结构和数据)》本文详细介绍了四种复制MySQL表(结构+数据)的方法,并对每种方法进行了对比分析,适用于不同场景和数据量的复制需求,特别是针对超大表(1... 目录一、mysql 复制表(结构+数据)的 4 种核心方法(面试结构化回答)方法 1:CREATE

详解C++ 存储二进制数据容器的几种方法

《详解C++存储二进制数据容器的几种方法》本文主要介绍了详解C++存储二进制数据容器,包括std::vector、std::array、std::string、std::bitset和std::ve... 目录1.std::vector<uint8_t>(最常用)特点:适用场景:示例:2.std::arra

SpringBoot返回文件让前端下载的几种方式

《SpringBoot返回文件让前端下载的几种方式》文章介绍了开发中文件下载的两种常见解决方案,并详细描述了通过后端进行下载的原理和步骤,包括一次性读取到内存和分块写入响应输出流两种方法,此外,还提供... 目录01 背景02 一次性读取到内存,通过响应输出流输出到前端02 将文件流通过循环写入到响应输出流

SpringBoot+Vue3整合SSE实现实时消息推送功能

《SpringBoot+Vue3整合SSE实现实时消息推送功能》在日常开发中,我们经常需要实现实时消息推送的功能,这篇文章将基于SpringBoot和Vue3来简单实现一个入门级的例子,下面小编就和大... 目录前言先大概介绍下SSE后端实现(SpringBoot)前端实现(vue3)1. 数据类型定义2.

SQL 注入攻击(SQL Injection)原理、利用方式与防御策略深度解析

《SQL注入攻击(SQLInjection)原理、利用方式与防御策略深度解析》本文将从SQL注入的基本原理、攻击方式、常见利用手法,到企业级防御方案进行全面讲解,以帮助开发者和安全人员更系统地理解... 目录一、前言二、SQL 注入攻击的基本概念三、SQL 注入常见类型分析1. 基于错误回显的注入(Erro

MySQL中的DELETE删除数据及注意事项

《MySQL中的DELETE删除数据及注意事项》MySQL的DELETE语句是数据库操作中不可或缺的一部分,通过合理使用索引、批量删除、避免全表删除、使用TRUNCATE、使用ORDERBY和LIMI... 目录1. 基本语法单表删除2. 高级用法使用子查询删除删除多表3. 性能优化策略使用索引批量删除避免

MySQL 数据库进阶之SQL 数据操作与子查询操作大全

《MySQL数据库进阶之SQL数据操作与子查询操作大全》本文详细介绍了SQL中的子查询、数据添加(INSERT)、数据修改(UPDATE)和数据删除(DELETE、TRUNCATE、DROP)操作... 目录一、子查询:嵌套在查询中的查询1.1 子查询的基本语法1.2 子查询的实战示例二、数据添加:INSE

Linux服务器数据盘移除并重新挂载的全过程

《Linux服务器数据盘移除并重新挂载的全过程》:本文主要介绍在Linux服务器上移除并重新挂载数据盘的整个过程,分为三大步:卸载文件系统、分离磁盘和重新挂载,每一步都有详细的步骤和注意事项,确保... 目录引言第一步:卸载文件系统第二步:分离磁盘第三步:重新挂载引言在 linux 服务器上移除并重新挂p

使用MyBatis TypeHandler实现数据加密与解密的具体方案

《使用MyBatisTypeHandler实现数据加密与解密的具体方案》在我们日常的开发工作中,经常会遇到一些敏感数据需要存储,比如用户的手机号、身份证号、银行卡号等,为了保障数据安全,我们通常会对... 目录1. 核心概念:什么是 TypeHandler?2. 实战场景3. 代码实现步骤步骤 1:定义 E