贝壳新房数据获取--词云处理--requests

2023-10-24 21:40

本文主要是介绍贝壳新房数据获取--词云处理--requests,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 

目录

目标网址分析

目标网址

大体结构

查看分页

数据获取与保存

数据查看

CSV查看

Excel打开

 词云


学习内容获取重庆贝壳新房房价数据,CSV形式保存在本地,解决Excel打开乱码问题,并对其数据进行简单词云处理........

  • 目标网址分析

  • 目标网址

  • 【重庆楼盘_重庆新楼盘_重庆新房房价】信息网-重庆贝壳新房
  • 大体结构

查看后得到:

  • 提取结构:

  • 查看分页

  • 发现分页很规则,,,,,,,,,
# https://cq.fang.ke.com/loupan/pg1/  第 1 页
# https://cq.fang.ke.com/loupan/pg2/  第 2 页
# https://cq.fang.ke.com/loupan/pg3/  第 3 页
# url = 'https://cq.fang.ke.com/loupan/pg' + str(page)
  • 数据获取与保存

代码

"""
2022年CSDN:抄代码抄错的小牛马
"""
import requests
from lxml import etree
import csvheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36',
}# 分页操作
def get_url():star_page = int(input("请输入起始页码:"))end_page = int(input("请输入结束页码:"))s = []for page in range(star_page, end_page + 1):url = 'https://cq.fang.ke.com/loupan/pg' + str(page)# print(url)s.append(url)# print(s)return s# 解析数据与保存
def get_data(s):for url in s:# print(url)resp = requests.get(url=url, headers=headers)content = resp.text# 解析tree = etree.HTML(content)li_list = tree.xpath('//div[@class="resblock-list-container clearfix"]/ul[@class="resblock-list-wrapper"]/li')# 循环for i in li_list:# 标题title = i.xpath('./div/div/a/text()')[0]# 销售状态和房屋类型type = i.xpath('./div/div[1]/span/text()')zhuangtai_type = ','.join(type)# 地理位置location = i.xpath('./div[@class="resblock-desc-wrapper"]/a/text()')locations = ' '.join(location).replace('\n\t', '').replace('\t', '')# 平米均价price = i.xpath('./div[@class="resblock-desc-wrapper"]/div[@class="resblock-price"]/div/span/text()')avg_price = ''.join(price)# 总价/套General_price = \i.xpath('./div[@class="resblock-desc-wrapper"]/div[@class="resblock-price"]/div[@class="second"]/text()')General_prices = ''.join(General_price)# 户型room_type = i.xpath('./div[@class="resblock-desc-wrapper"]/a[@class="resblock-room"]/span/text()')room_types = ''.join(room_type)# 房子简介Brief_introduction = i.xpath('./div[@class="resblock-desc-wrapper"]/div[@class="resblock-tag"]/span/text()')Brief_introductions = ','.join(Brief_introduction)# 写入数据writer.writerow([title, zhuangtai_type, locations, avg_price, General_prices, room_types, Brief_introductions])if __name__ == '__main__':# 新建CSV文件 newline=''防止空行写入f = open('重庆新房房价.csv', mode='a', encoding='utf-8', newline='')writer = csv.writer(f)# 写入表头, 在这里写如表头,可避免重复写入head = ['标题', '销售状态和房屋类型', '地理位置', '平米均价', '总价/套', '户型', '房子简介']writer.writerow(head)s = get_url()get_data(s)# 关闭文件f.close()
  • 数据查看

  • CSV查看

  • Excel打开

  • 解决乱码问题

  •  解决

加载后,打开并另存为: 

  •  词云

代码:

"""
2022年CSDN:抄代码抄错的小牛马
"""
import matplotlib.pyplot as plt
import numpy as np
from PIL import Image
import wordcloud
import jieba
from wordcloud import ImageColorGeneratordef func1():file = open('重庆新房房价.csv', encoding="utf-8")  # 当前路径result = file.read()file.close()return resultdef func2(words):wordList = jieba.lcut(words)pic = np.array(Image.open("1.jpg"))pic_color = ImageColorGenerator(pic)c = wordcloud.WordCloud(scale=4,mask=pic,font_path="./1.ttf",  # 字体路径(隶书)background_color='white', )  # 背景颜色c.generate(",".join(wordList))  # 生成词云plt.imshow(c.recolor(color_func=pic_color), interpolation='bilinear')c.to_file('./重庆重庆新房房价.jpg')words = func1()
func2(words)

效果:

 拜~~~

这篇关于贝壳新房数据获取--词云处理--requests的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:https://blog.csdn.net/qq_61122628/article/details/124853366
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/277930

相关文章

C#代码实现解析WTGPS和BD数据

《C#代码实现解析WTGPS和BD数据》在现代的导航与定位应用中,准确解析GPS和北斗(BD)等卫星定位数据至关重要,本文将使用C#语言实现解析WTGPS和BD数据,需要的可以了解下... 目录一、代码结构概览1. 核心解析方法2. 位置信息解析3. 经纬度转换方法4. 日期和时间戳解析5. 辅助方法二、L

使用Python和Matplotlib实现可视化字体轮廓(从路径数据到矢量图形)

《使用Python和Matplotlib实现可视化字体轮廓(从路径数据到矢量图形)》字体设计和矢量图形处理是编程中一个有趣且实用的领域,通过Python的matplotlib库,我们可以轻松将字体轮廓... 目录背景知识字体轮廓的表示实现步骤1. 安装依赖库2. 准备数据3. 解析路径指令4. 绘制图形关键

解决mysql插入数据锁等待超时报错:Lock wait timeout exceeded;try restarting transaction

《解决mysql插入数据锁等待超时报错:Lockwaittimeoutexceeded;tryrestartingtransaction》:本文主要介绍解决mysql插入数据锁等待超时报... 目录报错信息解决办法1、数据库中执行如下sql2、再到 INNODB_TRX 事务表中查看总结报错信息Lock

使用C#删除Excel表格中的重复行数据的代码详解

《使用C#删除Excel表格中的重复行数据的代码详解》重复行是指在Excel表格中完全相同的多行数据,删除这些重复行至关重要,因为它们不仅会干扰数据分析,还可能导致错误的决策和结论,所以本文给大家介绍... 目录简介使用工具C# 删除Excel工作表中的重复行语法工作原理实现代码C# 删除指定Excel单元

Linux lvm实例之如何创建一个专用于MySQL数据存储的LVM卷组

《Linuxlvm实例之如何创建一个专用于MySQL数据存储的LVM卷组》:本文主要介绍使用Linux创建一个专用于MySQL数据存储的LVM卷组的实例,具有很好的参考价值,希望对大家有所帮助,... 目录在Centos 7上创建卷China编程组并配置mysql数据目录1. 检查现有磁盘2. 创建物理卷3. 创

Nacos日志与Raft的数据清理指南

《Nacos日志与Raft的数据清理指南》随着运行时间的增长,Nacos的日志文件(logs/)和Raft持久化数据(data/protocol/raft/)可能会占用大量磁盘空间,影响系统稳定性,本... 目录引言1. Nacos 日志文件(logs/ 目录)清理1.1 日志文件的作用1.2 是否可以删除

python web 开发之Flask中间件与请求处理钩子的最佳实践

《pythonweb开发之Flask中间件与请求处理钩子的最佳实践》Flask作为轻量级Web框架,提供了灵活的请求处理机制,中间件和请求钩子允许开发者在请求处理的不同阶段插入自定义逻辑,实现诸如... 目录Flask中间件与请求处理钩子完全指南1. 引言2. 请求处理生命周期概述3. 请求钩子详解3.1

使用Python获取JS加载的数据的多种实现方法

《使用Python获取JS加载的数据的多种实现方法》在当今的互联网时代,网页数据的动态加载已经成为一种常见的技术手段,许多现代网站通过JavaScript(JS)动态加载内容,这使得传统的静态网页爬取... 目录引言一、动态 网页与js加载数据的原理二、python爬取JS加载数据的方法(一)分析网络请求1

Python处理大量Excel文件的十个技巧分享

《Python处理大量Excel文件的十个技巧分享》每天被大量Excel文件折磨的你看过来!这是一份Python程序员整理的实用技巧,不说废话,直接上干货,文章通过代码示例讲解的非常详细,需要的朋友可... 目录一、批量读取多个Excel文件二、选择性读取工作表和列三、自动调整格式和样式四、智能数据清洗五、

通过cmd获取网卡速率的代码

《通过cmd获取网卡速率的代码》今天从群里看到通过bat获取网卡速率两段代码,感觉还不错,学习bat的朋友可以参考一下... 1、本机有线网卡支持的最高速度:%v%@echo off & setlocal enabledelayedexpansionecho 代码开始echo 65001编码获取: >