爬虫案例 --唯品会口红数据爬取(附源码)

2024-01-05 12:04

本文主要是介绍爬虫案例 --唯品会口红数据爬取(附源码),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

"""
====================================================================项目名称: 唯品会商品数据爬取
项目描述: 通过requests框架获取网页数据
项目环境: pycharm && python3.8
作者所属: 几许====================================================================一 . 抓包1. 对唯品会官网进行分析 -- 通过筛选直接搜索商品信息获得商品数据包https://mapi.vip.com/vips-mobile/rest/shopping/pc/product/module/list/v22. 对商品数据包进行分析 -- 一页数据分为三部分{50,50,20},不同商品含有一个产品信息的编码3. 获取本页所有产品信息的编码 -- 对编码进行检索 , 获得数据包https://mapi.vip.com/vips-mobile/rest/shopping/pc/search/product/rank二 . 代码实现1. 定义产品信息数据请求函数得到数据包 -- 一次请求只能得到120条数据2. 通过for循环进行翻页处理得到全部信息3. 解析获得所需要的数据 , 通过表格保存===================================================================="""import requests
from jsonpath import jsonpath
import re,json
from pprint import pprint
import time
import csvclass Spider():def __init__(self):self.headers = {'authority': 'mapi.vip.com','accept': '*/*','accept-language': 'zh-CN,zh;q=0.9','cookie': 'vip_cps_cuid=CU1703946155093f91b22c68d55b7591; vip_cps_cid=1703946155095_f8aebf721aa4d69f55487762e3ca4c21; cps_share=cps_share; PAPVisitorId=58460c7a22e31f6b4acb2a1ed741f921; vip_new_old_user=1; vip_city_name=%E5%B9%BF%E5%B7%9E%E5%B8%82; mars_cid=1703946163504_4eebec221de3364e0da3bbe4a2182454; VipUINFO=luc%3Aa%7Csuc%3Aa%7Cbct%3Ac_new%7Chct%3Ac_new%7Cbdts%3A0%7Cbcts%3A0%7Ckfts%3A0%7Cc10%3A0%7Crcabt%3A0%7Cp2%3A0%7Cp3%3A1%7Cp4%3A0%7Cp5%3A0%7Cul%3A3105; mars_pid=0; vip_address=%257B%2522pname%2522%253A%2522%255Cu5b89%255Cu5fbd%255Cu7701%2522%252C%2522pid%2522%253A%2522103104%2522%252C%2522cname%2522%253A%2522%255Cu5e7f%255Cu5dde%255Cu5e02%2522%252C%2522cid%2522%253A%2522103104114%2522%257D; vip_province=103104; vip_province_name=%E5%AE%89%E5%BE%BD%E7%9C%81; vip_city_code=103104114; vip_wh=VIP_HZ; vip_ipver=31; user_class=a; cps=adp%3Antq8exyc%3A%40_%401704022867205%3Amig_code%3A4f6b50bf15bfa39639d85f5f1e15b10f%3Aac014miuvl0000b5sq8crnthcjdwurb0; mars_sid=ef0bd4aed17dd0eb261cda2a1a73e9d8; visit_id=43601963E9569AF31FBF7F1561D38FC9; vipshop_passport_src=https%3A%2F%2Fcategory.vip.com%2Fsuggest.php%3Fkeyword%3D%25E5%258F%25A3%25E7%25BA%25A2%26ff%3D235%7C12%7C1%7C1; vip_tracker_source_from=; vip_access_times=%7B%22list%22%3A0%2C%22detail%22%3A2%7D; pg_session_no=6; VipDFT=1','referer': 'https://category.vip.com/','sec-ch-ua': '"Not_A Brand";v="8", "Chromium";v="120", "Google Chrome";v="120"','sec-ch-ua-mobile': '?0','sec-ch-ua-platform': '"Windows"','sec-fetch-dest': 'script','sec-fetch-mode': 'no-cors','sec-fetch-site': 'same-site','user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'}self.home_url = 'https://mapi.vip.com/vips-mobile/rest/shopping/pc/product/module/list/v2'self.num = 1def praseHomedata(self,product):try:self.sub_data = {'callback': ' getMerchandiseDroplets1','app_name': ' shop_pc','app_version': ' 4.0','warehouse': ' VIP_HZ','fdc_area_id': ' 103104114','client': ' pc','mobile_platform': ' 1','province_id': ' 103104','api_key': ' 70f71280d5d547b2a7bb370a529aeea1','user_id': ' ','mars_cid': ' 1703946163504_4eebec221de3364e0da3bbe4a2182454','wap_consumer': ' a','productIds': product,'scene': ' search','standby_id': ' nature','extParams': ' {"stdSizeVids":"","preheatTipsVer":"3","couponVer":"v2","exclusivePrice":"1","iconSpec":"2x","ic2label":1,"superHot":1,"bigBrand":"1"}','context': ' ','_': ' 1704027272052',}time.sleep(1)response = requests.get(self.home_url,headers=self.headers,params=self.sub_data).textjson_data = response.split('getMerchandiseDroplets1(')[1]data = re.sub('\)', '', json_data)json_msg = json.loads(data)for i in json_msg['data']['products']:attrs = jsonpath(i,'$..value')[0]dict = {"标题" : i['title'],"品牌" : i['brandShowName'],"原价" : i['price']['marketPrice'],"折扣" : i['price']['saleDiscount'],"现价" : i['price']['salePrice'],"属性" : attrs}pprint(dict)print('===========================================')csv_write.writerow(dict)except:print("爬取完毕")def praseSubpage(self):for page in range(0, 2400, 120):print(f"正在爬取第{self.num}页")# 商品详情链接# 产品编码数据sub_url = f"https://mapi.vip.com/vips-mobile/rest/shopping/pc/search/product/rank?callback=getM" \f"erchandiseIds&app_name=shop_pc&app_version=4.0&warehouse=VIP_HZ&fdc_area_id=10310411" \f"4&client=pc&mobile_platform=1&province_id=103104&api_key=70f71280d5d547b2a7bb370a529a" \f"eea1&user_id=&mars_cid=1703946163504_4eebec221de3364e0da3bbe4a2182454&wap_consumer=a&" \f"standby_id=nature&keyword=%E5%8F%A3%E7%BA%A2&lv3CatIds=&lv2CatIds=&lv1CatIds=&brandSt" \f"oreSns=&props=&priceMin=&priceMax=&vipService=&sort=0&pageOffset={page}&channelId=1&g" \f"Platform=PC&batchSize=120&_=1704022901946"# 请求链接得到字典response = requests.get(sub_url, headers=self.headers).text# 获得产品编码data = re.findall('{"pid":"(.*?)"}', response)# 合并字符串product1 = ','.join(data[0:50])product2 = ','.join(data[50:100])product3 = ','.join(data[100:120])self.praseHomedata(product1)self.praseHomedata(product2)self.praseHomedata(product3)self.num += 1if __name__ == '__main__':with open('唯品会口红数据.csv', 'a', encoding='utf-8', newline='')as f:csv_write = csv.DictWriter(f, fieldnames=["标题", "品牌", "原价", "折扣", "现价", "属性"])csv_write.writeheader()spider = Spider()spider.praseSubpage()

这篇关于爬虫案例 --唯品会口红数据爬取(附源码)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/572802

相关文章

SQL Server修改数据库名及物理数据文件名操作步骤

《SQLServer修改数据库名及物理数据文件名操作步骤》在SQLServer中重命名数据库是一个常见的操作,但需要确保用户具有足够的权限来执行此操作,:本文主要介绍SQLServer修改数据... 目录一、背景介绍二、操作步骤2.1 设置为单用户模式(断开连接)2.2 修改数据库名称2.3 查找逻辑文件名

canal实现mysql数据同步的详细过程

《canal实现mysql数据同步的详细过程》:本文主要介绍canal实现mysql数据同步的详细过程,本文通过实例图文相结合给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的... 目录1、canal下载2、mysql同步用户创建和授权3、canal admin安装和启动4、canal

六个案例搞懂mysql间隙锁

《六个案例搞懂mysql间隙锁》MySQL中的间隙是指索引中两个索引键之间的空间,间隙锁用于防止范围查询期间的幻读,本文主要介绍了六个案例搞懂mysql间隙锁,具有一定的参考价值,感兴趣的可以了解一下... 目录概念解释间隙锁详解间隙锁触发条件间隙锁加锁规则案例演示案例一:唯一索引等值锁定存在的数据案例二:

使用SpringBoot整合Sharding Sphere实现数据脱敏的示例

《使用SpringBoot整合ShardingSphere实现数据脱敏的示例》ApacheShardingSphere数据脱敏模块,通过SQL拦截与改写实现敏感信息加密存储,解决手动处理繁琐及系统改... 目录痛点一:痛点二:脱敏配置Quick Start——Spring 显示配置:1.引入依赖2.创建脱敏

详解如何使用Python构建从数据到文档的自动化工作流

《详解如何使用Python构建从数据到文档的自动化工作流》这篇文章将通过真实工作场景拆解,为大家展示如何用Python构建自动化工作流,让工具代替人力完成这些数字苦力活,感兴趣的小伙伴可以跟随小编一起... 目录一、Excel处理:从数据搬运工到智能分析师二、PDF处理:文档工厂的智能生产线三、邮件自动化:

Python数据分析与可视化的全面指南(从数据清洗到图表呈现)

《Python数据分析与可视化的全面指南(从数据清洗到图表呈现)》Python是数据分析与可视化领域中最受欢迎的编程语言之一,凭借其丰富的库和工具,Python能够帮助我们快速处理、分析数据并生成高质... 目录一、数据采集与初步探索二、数据清洗的七种武器1. 缺失值处理策略2. 异常值检测与修正3. 数据

pandas实现数据concat拼接的示例代码

《pandas实现数据concat拼接的示例代码》pandas.concat用于合并DataFrame或Series,本文主要介绍了pandas实现数据concat拼接的示例代码,具有一定的参考价值,... 目录语法示例:使用pandas.concat合并数据默认的concat:参数axis=0,join=

MySQL 表的内外连接案例详解

《MySQL表的内外连接案例详解》本文给大家介绍MySQL表的内外连接,结合实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录表的内外连接(重点)内连接外连接表的内外连接(重点)内连接内连接实际上就是利用where子句对两种表形成的笛卡儿积进行筛选,我

C#代码实现解析WTGPS和BD数据

《C#代码实现解析WTGPS和BD数据》在现代的导航与定位应用中,准确解析GPS和北斗(BD)等卫星定位数据至关重要,本文将使用C#语言实现解析WTGPS和BD数据,需要的可以了解下... 目录一、代码结构概览1. 核心解析方法2. 位置信息解析3. 经纬度转换方法4. 日期和时间戳解析5. 辅助方法二、L

使用Python和Matplotlib实现可视化字体轮廓(从路径数据到矢量图形)

《使用Python和Matplotlib实现可视化字体轮廓(从路径数据到矢量图形)》字体设计和矢量图形处理是编程中一个有趣且实用的领域,通过Python的matplotlib库,我们可以轻松将字体轮廓... 目录背景知识字体轮廓的表示实现步骤1. 安装依赖库2. 准备数据3. 解析路径指令4. 绘制图形关键