Python爬虫实战(三) 免登录爬取东野圭吾超话——看看你喜欢的书上榜没?

2023-12-05 05:08

本文主要是介绍Python爬虫实战(三) 免登录爬取东野圭吾超话——看看你喜欢的书上榜没?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

        微博爬虫可以不借助selenium,直接用Chrome下的手机端模式打开,找到其封装的json数据,即可爬取,具体步骤如下。

分析过程

        以东野圭吾超话为例,网址为微博超话。进入页面后,使用Chrome浏览器的检查功能,打开手机端模式如下:

在这里插入图片描述
        刷新界面,进行抓包,可发现数据的封装地址。
在这里插入图片描述
接下来,我们分析一下翻页原理,向下滑动界面,对比两者的URL
在这里插入图片描述
在这里插入图片描述
不难发现,只有since_id不一样。那就找到第一条url的json数据,看看有没有第二条url的since_id。经过分析发现,第二条的url的since_id在第一条url的PageInfo下!这样,我们就可以翻页啦!
在这里插入图片描述

爬取代码:

微博反爬还是有点厉害的!一开始,我只用了一个用户代理,没爬到几条数据后就被检测出来了。然后,换了随机用户代理后,IP地址又被封了。所以,还是老老实实构建代理池弄吧。(IP都是网上找的免费可用的,自己可以先用代码检测一下活性)

import requests
import json
import re
import os
import time,random
os.chdir('C:/Users/dell/Desktop')
import pandas as pd
from w3lib.html import remove_tags
base_url='''
https://m.weibo.cn/api/container/getIndex?containerid=1008082daf12cb79491a80017ae2546cc6f49f_-_feed&luicode=10000011
&lfid=100103type%3D533%26t%3D10%26q%3D%E4%B8%9C%E9%87%8E%E5%9C%AD%E5%90%BE&since_id=4487749686029266
'''
head_list=["Opera/9.80 (X11; Linux i686; Ubuntu/14.10) Presto/2.12.388 Version/12.16","Opera/9.80 (Windows NT 6.0) Presto/2.12.388 Version/12.14","Mozilla/5.0 (Windows NT 6.0; rv:2.0) Gecko/20100101 Firefox/4.0 Opera 12.14","Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.0) Opera 12.14","Opera/12.80 (Windows NT 5.1; U; en) Presto/2.10.289 Version/12.02",]
ip=['114.101.42.16:65309','220.179.255.7:8118','103.44.145.182:8080','115.223.7.110:80']
proxy={'http':random.choice(ip)}
header={'user-agent':random.choice(head_list)}
pat='since_id=(.*)'
inf=[]
for page in range(1,300):try:r=requests.get(base_url,headers=header,proxies=proxy)df=json.loads(r.text)since_id=df.get('data').get('pageInfo').get('since_id')data=df.get('data').get('cards')[0].get('card_group')for item in data:send_time=item.get('mblog').get('created_at')content=remove_tags(item.get('mblog').get('text'))inf.append([send_time,content])base_url=re.sub(pat,'since_id='+str(since_id),base_url)print('第{}页写入完毕'.format(page))time.sleep(random.randint(3,5))except:print('未爬到数据')
inf1=pd.DataFrame(inf,columns=['发布时间','内容'])
inf1.to_csv('daily_comment.csv',index=False,encoding='gb18030')
数据可视化

时间范围:2019年3月——2020年3月
计数方式:单条微博提到书籍名则计数一次,重复则按一条来算
1. 统计各类书籍总讨论次数
在这里插入图片描述
《白夜行》一骑绝尘,在一年中书友们讨论了181次;紧跟其后的则是《恶意》,共讨论了140次;第三名则是《信》,共讨论了90次。由此可见,这三本在书迷中的人气较高哦,安利给大家~

2. 按月份统计书籍讨论次数
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
从上图来看,《白夜行》依旧是东野粉的至爱呀,一年中有半年的时间占讨论次数榜首;《恶意》也紧跟其后,分别在1月和8月占据榜首;《信》在2月和9月占据榜首;《祈祷落幕时》在4月讨论次数最多,《沉默的巡游》是最近才出的新书,故占据了3月的榜首。

3. 统计书中人物的讨论次数
在这里插入图片描述
亮司和雪穗是《白夜行》的男女主角,石神是《嫌疑人X的献身》的男主角。而加贺和汤川则是东野圭吾笔下两个十分有特色的人物。加贺是一名警官,既有缜密的推理能力,心中又有一份温柔,正因为如此,所以深受大家喜爱。而汤川是一名物理学家,时常帮助警方处理案件。相对加贺而言,看待事物更加理性、客观,也深受书迷们的追捧。

4. 讨论词云图
在这里插入图片描述
从词语图来看,“嫌疑人”、“杀人”、“系列”、"凶手"等词语出现频率较高,毕竟东叔是推理小说家嘛!

5.书籍关联图

对微博文字内容进行分词,并构建共现字典,查看哪些书最容易一起被提到。使用Gephi进行可视化,得到下图:
在这里插入图片描述

上图的线条越粗,说明两本书的关联程度越高!即微博里的用户经常一起提到这两本书。《白夜行》和《恶意》是经常一起被提到!此外,《白夜行》还和《幻夜》一起被提到的(也难怪《幻夜》是《白夜行》的姊妹篇!)

这篇关于Python爬虫实战(三) 免登录爬取东野圭吾超话——看看你喜欢的书上榜没?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/456267

相关文章

Ubuntu 24.04启用root图形登录的操作流程

《Ubuntu24.04启用root图形登录的操作流程》Ubuntu默认禁用root账户的图形与SSH登录,这是为了安全,但在某些场景你可能需要直接用root登录GNOME桌面,本文以Ubuntu2... 目录一、前言二、准备工作三、设置 root 密码四、启用图形界面 root 登录1. 修改 GDM 配

nginx 负载均衡配置及如何解决重复登录问题

《nginx负载均衡配置及如何解决重复登录问题》文章详解Nginx源码安装与Docker部署,介绍四层/七层代理区别及负载均衡策略,通过ip_hash解决重复登录问题,对nginx负载均衡配置及如何... 目录一:源码安装:1.配置编译参数2.编译3.编译安装 二,四层代理和七层代理区别1.二者混合使用举例

使用Python删除Excel中的行列和单元格示例详解

《使用Python删除Excel中的行列和单元格示例详解》在处理Excel数据时,删除不需要的行、列或单元格是一项常见且必要的操作,本文将使用Python脚本实现对Excel表格的高效自动化处理,感兴... 目录开发环境准备使用 python 删除 Excphpel 表格中的行删除特定行删除空白行删除含指定

MySQL 多列 IN 查询之语法、性能与实战技巧(最新整理)

《MySQL多列IN查询之语法、性能与实战技巧(最新整理)》本文详解MySQL多列IN查询,对比传统OR写法,强调其简洁高效,适合批量匹配复合键,通过联合索引、分批次优化提升性能,兼容多种数据库... 目录一、基础语法:多列 IN 的两种写法1. 直接值列表2. 子查询二、对比传统 OR 的写法三、性能分析

Python通用唯一标识符模块uuid使用案例详解

《Python通用唯一标识符模块uuid使用案例详解》Pythonuuid模块用于生成128位全局唯一标识符,支持UUID1-5版本,适用于分布式系统、数据库主键等场景,需注意隐私、碰撞概率及存储优... 目录简介核心功能1. UUID版本2. UUID属性3. 命名空间使用场景1. 生成唯一标识符2. 数

Python办公自动化实战之打造智能邮件发送工具

《Python办公自动化实战之打造智能邮件发送工具》在数字化办公场景中,邮件自动化是提升工作效率的关键技能,本文将演示如何使用Python的smtplib和email库构建一个支持图文混排,多附件,多... 目录前言一、基础配置:搭建邮件发送框架1.1 邮箱服务准备1.2 核心库导入1.3 基础发送函数二、

Python包管理工具pip的升级指南

《Python包管理工具pip的升级指南》本文全面探讨Python包管理工具pip的升级策略,从基础升级方法到高级技巧,涵盖不同操作系统环境下的最佳实践,我们将深入分析pip的工作原理,介绍多种升级方... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

PowerShell中15个提升运维效率关键命令实战指南

《PowerShell中15个提升运维效率关键命令实战指南》作为网络安全专业人员的必备技能,PowerShell在系统管理、日志分析、威胁检测和自动化响应方面展现出强大能力,下面我们就来看看15个提升... 目录一、PowerShell在网络安全中的战略价值二、网络安全关键场景命令实战1. 系统安全基线核查

基于Python实现一个图片拆分工具

《基于Python实现一个图片拆分工具》这篇文章主要为大家详细介绍了如何基于Python实现一个图片拆分工具,可以根据需要的行数和列数进行拆分,感兴趣的小伙伴可以跟随小编一起学习一下... 简单介绍先自己选择输入的图片,默认是输出到项目文件夹中,可以自己选择其他的文件夹,选择需要拆分的行数和列数,可以通过

Python中反转字符串的常见方法小结

《Python中反转字符串的常见方法小结》在Python中,字符串对象没有内置的反转方法,然而,在实际开发中,我们经常会遇到需要反转字符串的场景,比如处理回文字符串、文本加密等,因此,掌握如何在Pyt... 目录python中反转字符串的方法技术背景实现步骤1. 使用切片2. 使用 reversed() 函