用Python的selenium包从百度图片上爬想要的图片

2023-10-12 18:59

本文主要是介绍用Python的selenium包从百度图片上爬想要的图片,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

selenium包介绍


这是一个可以模拟一个浏览器用脚本语言控制浏览内容的扩展包,使用这样的方法浏览信息,和传统的get、post请求页面内容的方式完全不同,因为浏览器内置的各种组件可以帮你完成最难的动态加载内容的获取,当你真正是一个浏览器的时候,这些都不再是问题。为了使用脚本语言来控制浏览器访问页面,腰围浏览器下载一个驱动,并且驱动所在的位置一定要是系统变量下的位置。这里可以直接放在Python的系统变量所在的位置即可。下面是各种浏览器对应驱动的下载方法,这里引用了一篇charilia1的博文,里面有常用的浏览器的驱动。

https://blog.csdn.net/weixin_40438563/article/details/78683297

下载完驱动之后还要在Python中安装selenium包,可以用pip的方法来安装,也可以自己下载安装,地址在上面引用的文章中也有提到。我拿出呢个了这些之后环境就算配置好了。

打开一个页面

以谷歌浏览器为例,下面在Python的idle中输入以下命令:

from selenium import webdriver
driver = webdriver.Chrome()

如果环境配置成功,你的浏览器将被自动打开,显示一个空白界面,如下图:

下面就进入正题,开始从百度图片获取高清图片。

入口url解析

首先打开百度图片的首页随便搜索一个关键词,比如“selenium”,按回车,得到一个新的界面。界面的URL如下:

https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1536570134770_R&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=selenium

分析URL中的这么多组成部分中可以看到最后有一个叫“word”的部分,这个肯定是我们搜索的关键词了。然后再看之前的部分,开头的域名肯定是必要的,那么中间的那么多看不懂的内容有没有用呢?我们不妨一个个删除试试,最终得到不能再搜段的入口页面的url如下:

https://image.baidu.com/search/index?tn=baiduimage&word=selenium

然后我们试着用打开的浏览器来访问这个url,在idle中输入日下命令:

url = "https://image.baidu.com/search/index?tn=baiduimage&word=selenium"
driver.get(url)

此时空白的浏览器就显示了百度图片搜索selenium的结果如下图:

寻找图片链接:

下面要做的就是爬虫的基本功了,在网页的源码中找图片的高请链接,按F12打开开发者选项,可以找到这样一个链接:

鼠标放在上面会看到这是一张缩略图的地址,复制链接查看,图片地址是加密,并不是我们想要的,所以点击图片进入另一个页面,再去查找,在大图的背后找到了同一张图片的另一个连接,如下:

复制这个链接在查看,bingo。接下来就要写代码,批量获取图片地址了。

批量获取图片链接

思路是这样的,因为百度图片的查看大图页面的翻页链接是高度加密的,很难用get方法在页面中获取到翻页链接,另外,进入查看大图的页面上也很难获取到大图的链接,与其破解加密方法,还不如等待网页自己加载完全了再去获取链接,这就是selenium方法的无可比拟的优势,你所有在浏览器上看到的内容肯定都可以下载。所以方法就是首先搜索主题,然后模拟点击进入大图页面,然后{获取连接,模拟点击翻页}做循环。获取一定数量的图片就可以了。下面是代码:

from selenium import webdriver
import time
import os
import lxml
import lxml.html
import cssselect
from lxml import etree
import re
import numpy
from urllib import request
from urllib import parse# get方法打开一个连接
def url_open(url):res = request.Request(url)res.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0;Win64;x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134")html = request.urlopen(res,timeout = 60).read()return html# 隐式打开一个浏览器
def open_Explor():options = webdriver.ChromeOptions()options.add_argument('headless')driver = webdriver.Chrome(chrome_options=options)return driver
##保存图片到本地
def save(url):html = url_open(url)name = url[len(url)-15:len(url)]with open(name, "wb") as p:p.write(html)p.close()# 主函数
def main(key,type = 0,n = 20):#key:搜索关键词,type:图片尺寸类型,n:下载图片数量
#这里加入两个参数用来筛选图片的尺寸size = ["",                   ##任意尺寸"&width=1920&height=1080",##电脑壁纸"&width=2560&height=1440",##手机壁纸]# 网页链接中不能出现中文,所以要对关键词进行转码,用到了quote函数。key_word = parse.quote(str(key))# 设置路径到桌面,这里要根据电脑做修改os.chdir('C:/Users/lenovo/Desktop/')# 在新设路径下建立文件夹,一搜索关键词命名os.mkdir(key)# 设置路径到新建文件夹os.chdir('C:/Users/lenovo/Desktop/' + key)# 拼接起始页面地址url = "https://image.baidu.com/search/index?tn=baiduimage&word=" + key_word + size[type]# 打开浏览器并访问起始页driver = open_Explor()driver.get(url)# 进入大图页面页面,这里有两点注意,第一点是百度图片搜索之后会有广告图片在前# 几张,点击进入的是一个广告页,所以从第十张图片开始下载。第二点是起始页地址# 的xpath还有一种不常见的形式,放在except中。另xpath可以用谷歌开发者工具# 复制得到,然后再做小修改即可。try:hre = driver.find_element_by_xpath('//*[@id="imgid"]/div/ul/li[10]/div/a')except:hre = driver.find_element_by_xpath('//*[@id="imgid"]/div/ul/li[10]/div/div[1]/a')next_url = hre.get_attribute("href")driver.get(next_url)# 循环获取图片链接并下载图片for num in range(0,n):time.sleep(1)#等待网页加载,很必要,不然无法获取到新页面源代码html = driver.page_source#获取网页源码a = re.findall(r'src="([^<]+?\.jpg)',html)#正则获取图片地址if 'baidu' in a[0]:#这里的选择由页面细节决定,不介绍,想了解的可以用debug模式看一下。url = a[0].replace("amp;",'')save(url)print(num+1,"存入成功")else:print(num + 1, "存入失败")driver.find_element_by_xpath('//*[@id="container"]/span[2]').click()#翻到下一页print("完成!")key = input("请输入搜索关键词")
type = int(input("请输入大小信息"))
num = int(input("下载多少张?"))
main(key = key,type = type,n= num)

以上代码可以在idle中直接运行,输入对应的参数即可直接获取到想要的图片。不过话说回来,这种方法虽然万能,不用考录加密和动态加载问题,但是有一点,速度会相对较慢,而且由于网速的问题,网页动态加载的部分太慢也会有问题。所以有志于深度页面爬取的同学一定要花时间研究网页的js方法。
以上内容为摸索得到,如有不当,请指出,定虚心接受。

这篇关于用Python的selenium包从百度图片上爬想要的图片的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/197811

相关文章

浅析python如何去掉字符串中最后一个字符

《浅析python如何去掉字符串中最后一个字符》在Python中,字符串是不可变对象,因此无法直接修改原字符串,但可以通过生成新字符串的方式去掉最后一个字符,本文整理了三种高效方法,希望对大家有所帮助... 目录方法1:切片操作(最推荐)方法2:长度计算索引方法3:拼接剩余字符(不推荐,仅作演示)关键注意事

python版本切换工具pyenv的安装及用法

《python版本切换工具pyenv的安装及用法》Pyenv是管理Python版本的最佳工具之一,特别适合开发者和需要切换多个Python版本的用户,:本文主要介绍python版本切换工具pyen... 目录Pyenv 是什么?安装 Pyenv(MACOS)使用 Homebrew:配置 shell(zsh

Python自动化提取多个Word文档的文本

《Python自动化提取多个Word文档的文本》在日常工作和学习中,我们经常需要处理大量的Word文档,本文将深入探讨如何利用Python批量提取Word文档中的文本内容,帮助你解放生产力,感兴趣的小... 目录为什么需要批量提取Word文档文本批量提取Word文本的核心技术与工具安装 Spire.Doc

Python中Request的安装以及简单的使用方法图文教程

《Python中Request的安装以及简单的使用方法图文教程》python里的request库经常被用于进行网络爬虫,想要学习网络爬虫的同学必须得安装request这个第三方库,:本文主要介绍P... 目录1.Requests 安装cmd 窗口安装为pycharm安装在pycharm设置中为项目安装req

Python容器转换与共有函数举例详解

《Python容器转换与共有函数举例详解》Python容器是Python编程语言中非常基础且重要的概念,它们提供了数据的存储和组织方式,下面:本文主要介绍Python容器转换与共有函数的相关资料,... 目录python容器转换与共有函数详解一、容器类型概览二、容器类型转换1. 基本容器转换2. 高级转换示

使用Python将PDF表格自动提取并写入Word文档表格

《使用Python将PDF表格自动提取并写入Word文档表格》在实际办公与数据处理场景中,PDF文件里的表格往往无法直接复制到Word中,本文将介绍如何使用Python从PDF文件中提取表格数据,并将... 目录引言1. 加载 PDF 文件并准备 Word 文档2. 提取 PDF 表格并创建 Word 表格

使用Python实现局域网远程监控电脑屏幕的方法

《使用Python实现局域网远程监控电脑屏幕的方法》文章介绍了两种使用Python在局域网内实现远程监控电脑屏幕的方法,方法一使用mss和socket,方法二使用PyAutoGUI和Flask,每种方... 目录方法一:使用mss和socket实现屏幕共享服务端(被监控端)客户端(监控端)方法二:使用PyA

Python列表的创建与删除的操作指南

《Python列表的创建与删除的操作指南》列表(list)是Python中最常用、最灵活的内置数据结构之一,它支持动态扩容、混合类型、嵌套结构,几乎无处不在,但你真的会创建和删除列表吗,本文给大家介绍... 目录一、前言二、列表的创建方式1. 字面量语法(最常用)2. 使用list()构造器3. 列表推导式

Python使用Matplotlib和Seaborn绘制常用图表的技巧

《Python使用Matplotlib和Seaborn绘制常用图表的技巧》Python作为数据科学领域的明星语言,拥有强大且丰富的可视化库,其中最著名的莫过于Matplotlib和Seaborn,本篇... 目录1. 引言:数据可视化的力量2. 前置知识与环境准备2.1. 必备知识2.2. 安装所需库2.3

Python数据验证神器Pydantic库的使用和实践中的避坑指南

《Python数据验证神器Pydantic库的使用和实践中的避坑指南》Pydantic是一个用于数据验证和设置的库,可以显著简化API接口开发,文章通过一个实际案例,展示了Pydantic如何在生产环... 目录1️⃣ 崩溃时刻:当你的API接口又双叒崩了!2️⃣ 神兵天降:3行代码解决验证难题3️⃣ 深度