Python爬虫 JS案例分析:爬取鬼灭之刃漫

2023-10-31 08:20

本文主要是介绍Python爬虫 JS案例分析:爬取鬼灭之刃漫,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

文章转载于公众号:快学Python

作者:皖渝

猪油骨,拿来卤~今天,来分享一下python图片爬取+简单JS分析

爬取网址:漫画地址(这个网站只更新到188话,实际上已经有200多话了)

一、获取所有章节URL地址

打开网址后,使用Chrome抓包,发现所有章节的数据如下所示:

def get_html(url):r=requests.get(url,headers=header)r.encoding='gbk'if r.status_code==200:return r.textexcept:print('网络连接异常')def get_total_chapter():data=json.loads(get_html(url))chapter_total=data['Comics'][2]['Chapters']for item in chapter_total:yield item.get('Url')

 

二、解析图片地址,进行简单JS解密

点击进入第一话后,分析网页源码,发现图片保存在a标签下的img中,但是需要爬取的src是用javascript写的!这个时候直接用lxml库去解析是拿不到图片的。这里,我们先分析图片链接的组成,用正则把提取出来即可。

src='"+m201304d+"newkuku/2016/02/15/鬼灭之刃][第1话/JOJO_001513.jpg'

其中,m201304是加密的部分,这个网站比较简单,直接找到js4.js文件,即可发现m201304对应的是http://v2.kukudm.com/,除此之外还有三个加密码,我们可以构建成列表,用if判断是否含如下加密码,再用replace替换即可。

三、翻页分析

分析URL可知,第一话共54页,通过改变末尾的/number.html即可实现翻页

全部代码

所有图片都放在桌面的comic文件夹

import requests
import json
import os
import re
import time
os.chdir('C:/Users/dell/Desktop/comic')
url='https://api.soman.com/soman.ashx?action=getsomancomicdetail&comicname=%E9%AC%BC%E7%81%AD%E4%B9%8B%E5%88%83&source=kuku%E5%8A%A8%E6%BC%AB'
header={'user-agent':"Opera/9.80 (Windows NT 6.0; U; en) Presto/2.8.99 Version/11.10"}def get_html(url):r=requests.get(url,headers=header,timeout=5)r.encoding='gbk'if r.status_code==200:return r.textelse:print('网络连接异常')def get_total_chapter():data=json.loads(get_html(url))chapter_total=data['Comics'][2]['Chapters']for item in chapter_total:yield item.get('Url')def save_items(url,count):r=requests.get(url,headers=header,timeout=5)with open('./第{}话/'.format(count)+str(int(time.time()))+'.jpg','wb') as f:f.write(r.content)def get_all_img():  #得到每话总图片数src_list=["m200911d","m201001d","m201304d","k0910k"]count=0for chapter in get_total_chapter():try:count+=1os.makedirs('./第{}话'.format(count))pat='共(.*?)页'total_page=re.search(pat,get_html(chapter)).group(1)for page in range(1,int(total_page)+1):pat1='<IMG SRC=(.*)></a>'src=re.search(pat1,get_html(chapter)).group(1)for item in src_list:if item in src_list:src=src.replace("+"+item+"+",'http://v2.kukudm.com/').replace('"','')            save_items(eval(src),count)print('第{}话第{}页爬取完成'.format(count,page))now_page=re.search('.*/(.*)\.htm',chapter).group(1)chapter=chapter.replace(str(now_page)+'.htm',str(page+1)+'.htm')except:print('未爬取到数据')
if __name__=='__main__':get_all_img()

最终爬取的漫画如下(这里仅作示例,只爬取了前10话的内容):

这篇关于Python爬虫 JS案例分析:爬取鬼灭之刃漫的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/314018

相关文章

Django开发时如何避免频繁发送短信验证码(python图文代码)

《Django开发时如何避免频繁发送短信验证码(python图文代码)》Django开发时,为防止频繁发送验证码,后端需用Redis限制请求频率,结合管道技术提升效率,通过生产者消费者模式解耦业务逻辑... 目录避免频繁发送 验证码1. www.chinasem.cn避免频繁发送 验证码逻辑分析2. 避免频繁

精选20个好玩又实用的的Python实战项目(有图文代码)

《精选20个好玩又实用的的Python实战项目(有图文代码)》文章介绍了20个实用Python项目,涵盖游戏开发、工具应用、图像处理、机器学习等,使用Tkinter、PIL、OpenCV、Kivy等库... 目录① 猜字游戏② 闹钟③ 骰子模拟器④ 二维码⑤ 语言检测⑥ 加密和解密⑦ URL缩短⑧ 音乐播放

python panda库从基础到高级操作分析

《pythonpanda库从基础到高级操作分析》本文介绍了Pandas库的核心功能,包括处理结构化数据的Series和DataFrame数据结构,数据读取、清洗、分组聚合、合并、时间序列分析及大数据... 目录1. Pandas 概述2. 基本操作:数据读取与查看3. 索引操作:精准定位数据4. Group

Python pandas库自学超详细教程

《Pythonpandas库自学超详细教程》文章介绍了Pandas库的基本功能、安装方法及核心操作,涵盖数据导入(CSV/Excel等)、数据结构(Series、DataFrame)、数据清洗、转换... 目录一、什么是Pandas库(1)、Pandas 应用(2)、Pandas 功能(3)、数据结构二、安

Python使用Tenacity一行代码实现自动重试详解

《Python使用Tenacity一行代码实现自动重试详解》tenacity是一个专为Python设计的通用重试库,它的核心理念就是用简单、清晰的方式,为任何可能失败的操作添加重试能力,下面我们就来看... 目录一切始于一个简单的 API 调用Tenacity 入门:一行代码实现优雅重试精细控制:让重试按我

Python安装Pandas库的两种方法

《Python安装Pandas库的两种方法》本文介绍了三种安装PythonPandas库的方法,通过cmd命令行安装并解决版本冲突,手动下载whl文件安装,更换国内镜像源加速下载,最后建议用pipli... 目录方法一:cmd命令行执行pip install pandas方法二:找到pandas下载库,然后

MySQL中EXISTS与IN用法使用与对比分析

《MySQL中EXISTS与IN用法使用与对比分析》在MySQL中,EXISTS和IN都用于子查询中根据另一个查询的结果来过滤主查询的记录,本文将基于工作原理、效率和应用场景进行全面对比... 目录一、基本用法详解1. IN 运算符2. EXISTS 运算符二、EXISTS 与 IN 的选择策略三、性能对比

Python实现网格交易策略的过程

《Python实现网格交易策略的过程》本文讲解Python网格交易策略,利用ccxt获取加密货币数据及backtrader回测,通过设定网格节点,低买高卖获利,适合震荡行情,下面跟我一起看看我们的第一... 网格交易是一种经典的量化交易策略,其核心思想是在价格上下预设多个“网格”,当价格触发特定网格时执行买

Python标准库之数据压缩和存档的应用详解

《Python标准库之数据压缩和存档的应用详解》在数据处理与存储领域,压缩和存档是提升效率的关键技术,Python标准库提供了一套完整的工具链,下面小编就来和大家简单介绍一下吧... 目录一、核心模块架构与设计哲学二、关键模块深度解析1.tarfile:专业级归档工具2.zipfile:跨平台归档首选3.

使用Python构建智能BAT文件生成器的完美解决方案

《使用Python构建智能BAT文件生成器的完美解决方案》这篇文章主要为大家详细介绍了如何使用wxPython构建一个智能的BAT文件生成器,它不仅能够为Python脚本生成启动脚本,还提供了完整的文... 目录引言运行效果图项目背景与需求分析核心需求技术选型核心功能实现1. 数据库设计2. 界面布局设计3