爬虫实战(一)零基础应该也能看懂 爬取斗图啦上的图片爬取

2023-10-18 17:20

本文主要是介绍爬虫实战(一)零基础应该也能看懂 爬取斗图啦上的图片爬取,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

爬虫(模仿博客上的内容:换一个网站进行操作)
爬取网站上的图片
1.搞清思路
想要下载图片就要搞清图片的代码在哪里
想要批量下载就要搞清这些图片的代码规律
下面图片里有我的思路

在这里插入图片描述
下面是我写的代码 和解释 =前面的是自己命名的,不知道他会出来什么的时候可以print()打印一下名字 看结果是什么
这是效果图 我写的时间 2019/11/03 复制下 改一下保存那个位置应该可以用
在这里插入图片描述2
在这里插入图片描述

在这里插入代码片
#导入框架     #号是用来注释的#后面的没有任何额效果
import re
import requests
#确定url
url='https://www.doutula.com/article/list/?page=%d'#这是网页的网址 %d  d是占数字时 后面用%+内容可以换掉里面的内容
for i in range(1,4):#用for循环列出1-4我想下载4个网站上的图片  #for循环一次下面的循环一边temp=url%i#获取源码   #这时候就用%i {i就是1-3},替换掉url中的%dreponse=requests.get(temp).text#这时候我们用requests 请求库 用get 的方式请求网站获取源码 用.text把获取源码并转化为文本#正则删选mig_url=re.findall(r'(data-original)="(.*?)"',reponse) #正则表达式 来得到我们想要的图片网址#我不太会正则只会个.*匹配全部的for mig_urls in mig_url:#用for循环把 删选的源码 图片列出来mig_urls=mig_urls[-1]#因为不太会正则所以删选的数据又多出来的部分 我只需要最后面的图片源码所以用[-1]mig_name=mig_urls.split('/')[-1] #提取图片的名字。。。mig_urls=requests.get(mig_urls).content#把提取出的图片源码 用requests.get的方式请求,.content转为二进制#保存下载的东西with open('./c/%s'%mig_name,'wb') as ll:# ()里面的内容 保存的位置  ./是当前文件夹 %s   s占位字符串 ,wb是写入权限ll.write(mig_urls)#(ll)这个是随意写的和上面写的一至即可  文件写入 下载的二进制()里面输入的是上面求的

这篇关于爬虫实战(一)零基础应该也能看懂 爬取斗图啦上的图片爬取的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/234051

相关文章

Python如何去除图片干扰代码示例

《Python如何去除图片干扰代码示例》图片降噪是一个广泛应用于图像处理的技术,可以提高图像质量和相关应用的效果,:本文主要介绍Python如何去除图片干扰的相关资料,文中通过代码介绍的非常详细,... 目录一、噪声去除1. 高斯噪声(像素值正态分布扰动)2. 椒盐噪声(随机黑白像素点)3. 复杂噪声(如伪

Python中图片与PDF识别文本(OCR)的全面指南

《Python中图片与PDF识别文本(OCR)的全面指南》在数据爆炸时代,80%的企业数据以非结构化形式存在,其中PDF和图像是最主要的载体,本文将深入探索Python中OCR技术如何将这些数字纸张转... 目录一、OCR技术核心原理二、python图像识别四大工具库1. Pytesseract - 经典O

Python并行处理实战之如何使用ProcessPoolExecutor加速计算

《Python并行处理实战之如何使用ProcessPoolExecutor加速计算》Python提供了多种并行处理的方式,其中concurrent.futures模块的ProcessPoolExecu... 目录简介完整代码示例代码解释1. 导入必要的模块2. 定义处理函数3. 主函数4. 生成数字列表5.

Python实现精准提取 PDF中的文本,表格与图片

《Python实现精准提取PDF中的文本,表格与图片》在实际的系统开发中,处理PDF文件不仅限于读取整页文本,还有提取文档中的表格数据,图片或特定区域的内容,下面我们来看看如何使用Python实... 目录安装 python 库提取 PDF 文本内容:获取整页文本与指定区域内容获取页面上的所有文本内容获取

从基础到进阶详解Pandas时间数据处理指南

《从基础到进阶详解Pandas时间数据处理指南》Pandas构建了完整的时间数据处理生态,核心由四个基础类构成,Timestamp,DatetimeIndex,Period和Timedelta,下面我... 目录1. 时间数据类型与基础操作1.1 核心时间对象体系1.2 时间数据生成技巧2. 时间索引与数据

Python基于微信OCR引擎实现高效图片文字识别

《Python基于微信OCR引擎实现高效图片文字识别》这篇文章主要为大家详细介绍了一款基于微信OCR引擎的图片文字识别桌面应用开发全过程,可以实现从图片拖拽识别到文字提取,感兴趣的小伙伴可以跟随小编一... 目录一、项目概述1.1 开发背景1.2 技术选型1.3 核心优势二、功能详解2.1 核心功能模块2.

Go语言如何判断两张图片的相似度

《Go语言如何判断两张图片的相似度》这篇文章主要为大家详细介绍了Go语言如何中实现判断两张图片的相似度的两种方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 在介绍技术细节前,我们先来看看图片对比在哪些场景下可以用得到:图片去重:自动删除重复图片,为存储空间"瘦身"。想象你是一个

安装centos8设置基础软件仓库时出错的解决方案

《安装centos8设置基础软件仓库时出错的解决方案》:本文主要介绍安装centos8设置基础软件仓库时出错的解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录安装Centos8设置基础软件仓库时出错版本 8版本 8.2.200android4版本 javas

使用Python实现base64字符串与图片互转的详细步骤

《使用Python实现base64字符串与图片互转的详细步骤》要将一个Base64编码的字符串转换为图片文件并保存下来,可以使用Python的base64模块来实现,这一过程包括解码Base64字符串... 目录1. 图片编码为 Base64 字符串2. Base64 字符串解码为图片文件3. 示例使用注意

Linux基础命令@grep、wc、管道符的使用详解

《Linux基础命令@grep、wc、管道符的使用详解》:本文主要介绍Linux基础命令@grep、wc、管道符的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录grep概念语法作用演示一演示二演示三,带选项 -nwc概念语法作用wc,不带选项-c,统计字节数-