用Python带你看看全国统一国庆节请假理由是什么~

2023-10-30 10:20

本文主要是介绍用Python带你看看全国统一国庆节请假理由是什么~,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击上方“ Python爬虫与数据挖掘 ”,进行关注

回复“书籍”即可获赠Python从入门到进阶共10本电子书

燕台一望客心惊,笳鼓喧喧汉将营。

大家好,我是志斌~

因为疫情的影响,很多高校开学后都选择了封校,从而来防止疫情在学校里出现,但是马上国庆了,学校也因时制宜改变了防疫方式,比如请假可以申请离校外出。

就让志斌用Python来带大家看看微博上话题热度第四的《全国统一国庆节请假的理由》的网友们是怎么请假的,并且那个理由是最通用的~

a6d5aa9c08a6cd4b2e71a54929b2f426.png

01

数据采集

我们是从微博移动端来进行数据采集的。我们按F12,打开开发者模式,对网页进行观察

4378439166a3775f84eb4a0684eb2854.png

我们发现数据存储的网页是一个hotflow开头的页面,它的数据存储的方式是Ajax,那我们就可以知道请求的页面和提取数据的方式了。

在上面,我们已经找到数据存储的网页和方式,那么只需要找到页面之间的联系,构造好循环,就可以批量开始爬取啦~

接下来对不同页面之间的URL进行观察

1d07b3f23e460187ab2e1adb26cbcf09.png

它们URL里面的id和mid是固定不变的,但是max_id是变化的,然后我又在页面里面发现了max_id值的规律,每一页的max_id的值都在上一页中存储着。

3862bdbb55c3c07b517e575f64ea9248.png

但是这样还不能够全部都访问,具体的原因和改进措施,这里因为篇幅,志斌就不介绍了,有兴趣的读者可以看看这两篇文章,有详细解释

数据采集的核心代码:

import requests
import re
import time
import csv
for page in range(1,10000):if page == 1 :params = (('id', '4679186482727431'),('mid', '4686092090212455'),('max_id_type', '0'),)response = requests.get('https://m.weibo.cn/comments/hotflow', headers=headers, params=params)a = response.json()['data']['max_id']b = response.json()['data']['max_id_type']for i in response.json()['data']['data']:pinglunshijian = i['created_at']ri = pinglunshijian.split()[2]shi = pinglunshijian.split()[3].split(':')[0]dianzanshu = i['like_count']neirong = re.sub(r'<[^>]*>', '', i['text'])id = i['user']['id']yonghumingcheng = i['user']['screen_name']with open('请假.csv','a',newline='') as f:writer = csv.writer(f)writer.writerow([yonghumingcheng,dianzanshu,ri,shi])with open(r'请假.txt', 'a', encoding='utf-8') as f:f.write(f'{neirong}\n')

02

可视化展示

我们此次一共获取了6216条数据,对这些数据进行可视化展示。

01

 评论点赞top5用户

我们先来看看那些用户的评论最受大家认同。

c9abcea14a9fddb3ec414dda236bd3c2.png

这位叫顾狸狸的网友的评论点赞数是最高的,远超后几名,让我们来看看她的评论是什么,竟能让大家这么认同~

c8a98e09045c1abe9753132c5d30b351.png

这理由确实可哇!而且很有文艺范,不像我只会用亲戚朋友结婚来当理由~

02

 评论词云图

eea9294d2821dbb312563910f274ef47.png

我们发现结婚、姐姐、婚礼这三个词比较多,结合从微博上看到的评论,看来大家都是一样用参加姐姐婚礼请假回家的理由最多~

22250f8c9c8e334e2b7c57d1201cad6b.png

图片来源于微博~

词云图代码:

with open("请假.txt",encoding='utf-8') as f:job_title_1 = f.read()
contents_cut_job_title = jieba.cut(job_title_1)
contents_list_job_title = " ".join(contents_cut_job_title)
wc = WordCloud(stopwords=STOPWORDS.add("一个"), collocations=False,background_color="white",font_path=r"K:\苏新诗柳楷简.ttf",width=400, height=300, random_state=42,mask=imread('xin.jpg', pilmode="RGB"))
wc.generate(contents_list_job_title)
wc.to_file("推荐语.png")

03

小结

1. 你的请假理由是什么呢?欢迎大家来找志斌分享哟~

2. 虽然国庆可以外出,但是大家还是要做好防护哟~

3. 本文仅作学习参考,不做它用。

小伙伴们,快快用实践一下吧!如果在学习过程中,有遇到任何问题,欢迎加我好友,我拉你进Python学习交流群共同探讨学习。

3868685f5aa45679796609e2563c4751.png

------------------- End -------------------

往期精彩文章推荐:

  • 手把手教你用Python来模拟绘制自由落体运动过程中的抛物线(附源码)

  • 如何利用Python实现'2021年9月28日'转换位为'2021/9/28'格式?

  • 盘点3种Python网络爬虫过程中的中文乱码的处理方法

  • 什么?requests爬虫库明明安装成功了,为啥用不了?

ea8c4d219b50508c7030fa05593d3245.png

欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持

想加入Python学习群请在后台回复【入群

万水千山总是情,点个【在看】行不行

/今日留言主题/

随便说一两句吧~~

这篇关于用Python带你看看全国统一国庆节请假理由是什么~的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/307234

相关文章

使用python生成固定格式序号的方法详解

《使用python生成固定格式序号的方法详解》这篇文章主要为大家详细介绍了如何使用python生成固定格式序号,文中的示例代码讲解详细,具有一定的借鉴价值,有需要的小伙伴可以参考一下... 目录生成结果验证完整生成代码扩展说明1. 保存到文本文件2. 转换为jsON格式3. 处理特殊序号格式(如带圈数字)4

Python版本信息获取方法详解与实战

《Python版本信息获取方法详解与实战》在Python开发中,获取Python版本号是调试、兼容性检查和版本控制的重要基础操作,本文详细介绍了如何使用sys和platform模块获取Python的主... 目录1. python版本号获取基础2. 使用sys模块获取版本信息2.1 sys模块概述2.1.1

一文详解Python如何开发游戏

《一文详解Python如何开发游戏》Python是一种非常流行的编程语言,也可以用来开发游戏模组,:本文主要介绍Python如何开发游戏的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下... 目录一、python简介二、Python 开发 2D 游戏的优劣势优势缺点三、Python 开发 3D

Python函数作用域与闭包举例深度解析

《Python函数作用域与闭包举例深度解析》Python函数的作用域规则和闭包是编程中的关键概念,它们决定了变量的访问和生命周期,:本文主要介绍Python函数作用域与闭包的相关资料,文中通过代码... 目录1. 基础作用域访问示例1:访问全局变量示例2:访问外层函数变量2. 闭包基础示例3:简单闭包示例4

Python实现字典转字符串的五种方法

《Python实现字典转字符串的五种方法》本文介绍了在Python中如何将字典数据结构转换为字符串格式的多种方法,首先可以通过内置的str()函数进行简单转换;其次利用ison.dumps()函数能够... 目录1、使用json模块的dumps方法:2、使用str方法:3、使用循环和字符串拼接:4、使用字符

Python版本与package版本兼容性检查方法总结

《Python版本与package版本兼容性检查方法总结》:本文主要介绍Python版本与package版本兼容性检查方法的相关资料,文中提供四种检查方法,分别是pip查询、conda管理、PyP... 目录引言为什么会出现兼容性问题方法一:用 pip 官方命令查询可用版本方法二:conda 管理包环境方法

基于Python开发Windows自动更新控制工具

《基于Python开发Windows自动更新控制工具》在当今数字化时代,操作系统更新已成为计算机维护的重要组成部分,本文介绍一款基于Python和PyQt5的Windows自动更新控制工具,有需要的可... 目录设计原理与技术实现系统架构概述数学建模工具界面完整代码实现技术深度分析多层级控制理论服务层控制注

pycharm跑python项目易出错的问题总结

《pycharm跑python项目易出错的问题总结》:本文主要介绍pycharm跑python项目易出错问题的相关资料,当你在PyCharm中运行Python程序时遇到报错,可以按照以下步骤进行排... 1. 一定不要在pycharm终端里面创建环境安装别人的项目子模块等,有可能出现的问题就是你不报错都安装

Python打包成exe常用的四种方法小结

《Python打包成exe常用的四种方法小结》本文主要介绍了Python打包成exe常用的四种方法,包括PyInstaller、cx_Freeze、Py2exe、Nuitka,文中通过示例代码介绍的非... 目录一.PyInstaller11.安装:2. PyInstaller常用参数下面是pyinstal

Python爬虫HTTPS使用requests,httpx,aiohttp实战中的证书异步等问题

《Python爬虫HTTPS使用requests,httpx,aiohttp实战中的证书异步等问题》在爬虫工程里,“HTTPS”是绕不开的话题,HTTPS为传输加密提供保护,同时也给爬虫带来证书校验、... 目录一、核心问题与优先级检查(先问三件事)二、基础示例:requests 与证书处理三、高并发选型: