小程序端的懂车帝二手车数据采集

2024-05-05 23:04

本文主要是介绍小程序端的懂车帝二手车数据采集,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

import datetime
import random
import string
import time
import pymysql
import requests
import json


def mysql_sql(conn, cur):
    """创建一个存储数据表和一个存储链接表"""
    cur.execute('''
       CREATE TABLE if not exists dcd_xcx_car (
        sku_id VARCHAR(200) primary key COMMENT 'id', 
        car_img_url VARCHAR(2000) COMMENT '车辆照片链接', 
        car_name VARCHAR(200) COMMENT '汽车发动机名称', 
        series_name VARCHAR(200) COMMENT '汽车名称', 
        brand_name VARCHAR(200) comment '品牌名称', 
        mileage VARCHAR(200) comment '里程数',
        first_registration_time VARCHAR(200) comment '汽车第一次注时间',  
        car_age VARCHAR(200) comment '汽车年龄',  
        sh_price VARCHAR(200) comment '价格', 
        title VARCHAR(200) comment '标题',
        sub_title VARCHAR(200) comment '副标题',
        link_url VARCHAR(2000) comment '详情链接',  
        car_year VARCHAR(200) comment '汽车生产年份',  
        car_source_city_name VARCHAR(200) comment '车源城市名称', 
        fixed_price VARCHAR(200) comment '固定价格', 
        origin_sh_price VARCHAR(200) comment '原产地价格'
    ) COMMENT='微信小程序端表数据';
    ''')
    cur.execute('''
       CREATE TABLE if not exists xcx_dcd_url (
        url VARCHAR(2000) COMMENT '链接信息'
    ) COMMENT='异常存储微信小程序端链接';
    ''')

    # 提交事务
    conn.commit()


def generate_random_string(length):
    """生成随机字符串用于id"""
    letters = string.ascii_letters
    result_str = ''.join(random.choice(letters) for i in range(length))
    return result_str


def start_load(requests, city, pagenum, visited_urls, conn, cur):
    """主函数"""
    cookies = {
        'tt_webid': '7365037271119562292',
    }
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36 MicroMessenger/7.0.20.1781(0x6700143B) NetType/WIFI MiniProgramEnv/Windows WindowsWechat/WMPF WindowsWechat(0x63090a13) XWEB/8555',
        'xweb_xhr': '1',
        'sec-fetch-site': 'cross-site',
        'sec-fetch-mode': 'cors',
        'sec-fetch-dest': 'empty',
        'referer': 'https://servicewechat.com/wx0688e7bcdd17106e/308/page-frame.html',
        'accept-language': 'zh-CN,zh;q=0.9',
    }
    url = f'https://m.dcdapp.com/motor/sh_go/api/shop/sku_search?aid=1556&device_id=7365037271119562292&master_aid&user_unique_id=7365037271119562292&os_version=Windows 10 x64&ma_version=5.10.429&app_name=wechat&data_from=tt_mp&device_platform=windows&device_type=microsoft&device_brand=microsoft&sdk_verison=3.2.4&api_version=2&version_code=0&city_name={city}&limit=10&offset={pagenum}&sort=4&shop_type=9&entry=main_page&sh_city_name={city}&selected_city_name={city}'
    cur.execute("INSERT INTO xcx_dcd_url (url) VALUES (%s)", (url))
    conn.commit()
    if url not in visited_urls:  # 检查URL是否已经被爬取过
        try:
            response = requests.get(
                url=url,
                cookies=cookies,
                headers=headers,
            )
        except Exception as e:
            print(e)
        time_date = random.uniform(3, 5)
        time.sleep(time_date)
        df = json.loads(response.text)
        sc = df['data']['sku_list']
        has_more = df['data']['has_more']
        if has_more == False:
            print("结束咯,往下面也没有数据啦")
            flag = 0
            return flag
        else:
            print(f"第{pagenum/10}页",url)
            for i in sc:
                rom_str = generate_random_string(5)
                sku_id = rom_str + str(i['sku_id'])
                car_img_url = i['car_img_url']
                car_name = i['car_name']  # 发动机名称
                series_name = i['series_name']  # 系列名称
                brand_name = i['brand_name']  # 品牌名称
                mileage = i['mileage']  # 里程数
                first_registration_time = i['first_registration_time']  # 第一次注时间
                first_registration_time = datetime.datetime.fromtimestamp(first_registration_time)
                car_age = i['car_age']  # 汽车年龄
                sh_price = i['sh_price'] + '万'  # 价格
                title = i['title']
                sub_title = i['sub_title']
                link_url = i['link_url']  # 详情
                car_year = i['car_year']  # 汽车年龄
                car_source_city_name = i['car_source_city_name']  # 车源城市名称
                fixed_price = i['fixed_price']  # 固定价格
                origin_sh_price = i['origin_sh_price'] + '万'  # 原产地价格
                # print(sku_id, car_img_url, car_name, series_name, brand_name, mileage, dt_object,
                #       car_age, sh_price, title, sub_title, link_url, car_year, car_source_city_name, fixed_price,
                #       origin_sh_price)
                cur.execute(
                    "INSERT INTO dcd_xcx_car (sku_id, car_img_url, car_name, series_name, brand_name, mileage, first_registration_time, car_age, sh_price, title, sub_title, link_url, car_year, car_source_city_name, fixed_price, origin_sh_price) VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)",
                    (sku_id, car_img_url, car_name, series_name, brand_name, mileage, first_registration_time, car_age,
                     sh_price, title, sub_title, link_url, car_year, car_source_city_name, fixed_price, origin_sh_price)
                )
            conn.commit()


if __name__ == '__main__':
    conn = pymysql.connect(host='localhost', user='admin', password='admin147', database='demo', port=3306)
    # 创建一个游标对象
    cur = conn.cursor()
    try:
        mysql_sql(conn, cur)
        # 从数据库中获取已经爬取过的URL
        cur.execute("SELECT url FROM xcx_dcd_url")
        fetched_urls = cur.fetchall()
        # 创建一个集合来存储已经爬取过的URL
        visited_urls = set(url[0] for url in fetched_urls)
        city = input("请输入要爬取的城市:")
        for pagenum in range(0, 6000, 10):
            flag = start_load(requests, city, pagenum, visited_urls, conn, cur)
            if flag == 0:
                break
    except Exception as e:
        print(e)
    finally:
        # 关闭连接
        cur.close()
        conn.close()
 

这篇关于小程序端的懂车帝二手车数据采集的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/962900

相关文章

MySQL快速复制一张表的四种核心方法(包括表结构和数据)

《MySQL快速复制一张表的四种核心方法(包括表结构和数据)》本文详细介绍了四种复制MySQL表(结构+数据)的方法,并对每种方法进行了对比分析,适用于不同场景和数据量的复制需求,特别是针对超大表(1... 目录一、mysql 复制表(结构+数据)的 4 种核心方法(面试结构化回答)方法 1:CREATE

详解C++ 存储二进制数据容器的几种方法

《详解C++存储二进制数据容器的几种方法》本文主要介绍了详解C++存储二进制数据容器,包括std::vector、std::array、std::string、std::bitset和std::ve... 目录1.std::vector<uint8_t>(最常用)特点:适用场景:示例:2.std::arra

MySQL中的DELETE删除数据及注意事项

《MySQL中的DELETE删除数据及注意事项》MySQL的DELETE语句是数据库操作中不可或缺的一部分,通过合理使用索引、批量删除、避免全表删除、使用TRUNCATE、使用ORDERBY和LIMI... 目录1. 基本语法单表删除2. 高级用法使用子查询删除删除多表3. 性能优化策略使用索引批量删除避免

MySQL 数据库进阶之SQL 数据操作与子查询操作大全

《MySQL数据库进阶之SQL数据操作与子查询操作大全》本文详细介绍了SQL中的子查询、数据添加(INSERT)、数据修改(UPDATE)和数据删除(DELETE、TRUNCATE、DROP)操作... 目录一、子查询:嵌套在查询中的查询1.1 子查询的基本语法1.2 子查询的实战示例二、数据添加:INSE

Linux服务器数据盘移除并重新挂载的全过程

《Linux服务器数据盘移除并重新挂载的全过程》:本文主要介绍在Linux服务器上移除并重新挂载数据盘的整个过程,分为三大步:卸载文件系统、分离磁盘和重新挂载,每一步都有详细的步骤和注意事项,确保... 目录引言第一步:卸载文件系统第二步:分离磁盘第三步:重新挂载引言在 linux 服务器上移除并重新挂p

使用MyBatis TypeHandler实现数据加密与解密的具体方案

《使用MyBatisTypeHandler实现数据加密与解密的具体方案》在我们日常的开发工作中,经常会遇到一些敏感数据需要存储,比如用户的手机号、身份证号、银行卡号等,为了保障数据安全,我们通常会对... 目录1. 核心概念:什么是 TypeHandler?2. 实战场景3. 代码实现步骤步骤 1:定义 E

使用C#导出Excel数据并保存多种格式的完整示例

《使用C#导出Excel数据并保存多种格式的完整示例》在现代企业信息化管理中,Excel已经成为最常用的数据存储和分析工具,从员工信息表、销售数据报表到财务分析表,几乎所有部门都离不开Excel,本文... 目录引言1. 安装 Spire.XLS2. 创建工作簿和填充数据3. 保存为不同格式4. 效果展示5

Python多任务爬虫实现爬取图片和GDP数据

《Python多任务爬虫实现爬取图片和GDP数据》本文主要介绍了基于FastAPI开发Web站点的方法,包括搭建Web服务器、处理图片资源、实现多任务爬虫和数据可视化,同时,还简要介绍了Python爬... 目录一. 基于FastAPI之Web站点开发1. 基于FastAPI搭建Web服务器2. Web服务

MySQL 批量插入的原理和实战方法(快速提升大数据导入效率)

《MySQL批量插入的原理和实战方法(快速提升大数据导入效率)》在日常开发中,我们经常需要将大量数据批量插入到MySQL数据库中,本文将介绍批量插入的原理、实现方法,并结合Python和PyMySQ... 目录一、批量插入的优势二、mysql 表的创建示例三、python 实现批量插入1. 安装 PyMyS

关于MySQL将表中数据删除后多久空间会被释放出来

《关于MySQL将表中数据删除后多久空间会被释放出来》MySQL删除数据后,空间不会立即释放给操作系统,而是会被标记为“可重用”,以供未来插入新数据时使用,只有满足特定条件时,空间才可能真正返还给操作... 目录一、mysql数据删除与空间管理1.1 理解MySQL数据删除原理1.3 执行SQL1.3 使用