用Python的selenium包从百度图片上爬想要的图片

2023-10-12 18:59

本文主要是介绍用Python的selenium包从百度图片上爬想要的图片,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

selenium包介绍


这是一个可以模拟一个浏览器用脚本语言控制浏览内容的扩展包,使用这样的方法浏览信息,和传统的get、post请求页面内容的方式完全不同,因为浏览器内置的各种组件可以帮你完成最难的动态加载内容的获取,当你真正是一个浏览器的时候,这些都不再是问题。为了使用脚本语言来控制浏览器访问页面,腰围浏览器下载一个驱动,并且驱动所在的位置一定要是系统变量下的位置。这里可以直接放在Python的系统变量所在的位置即可。下面是各种浏览器对应驱动的下载方法,这里引用了一篇charilia1的博文,里面有常用的浏览器的驱动。

https://blog.csdn.net/weixin_40438563/article/details/78683297

下载完驱动之后还要在Python中安装selenium包,可以用pip的方法来安装,也可以自己下载安装,地址在上面引用的文章中也有提到。我拿出呢个了这些之后环境就算配置好了。

打开一个页面

以谷歌浏览器为例,下面在Python的idle中输入以下命令:

from selenium import webdriver
driver = webdriver.Chrome()

如果环境配置成功,你的浏览器将被自动打开,显示一个空白界面,如下图:

下面就进入正题,开始从百度图片获取高清图片。

入口url解析

首先打开百度图片的首页随便搜索一个关键词,比如“selenium”,按回车,得到一个新的界面。界面的URL如下:

https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1536570134770_R&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=selenium

分析URL中的这么多组成部分中可以看到最后有一个叫“word”的部分,这个肯定是我们搜索的关键词了。然后再看之前的部分,开头的域名肯定是必要的,那么中间的那么多看不懂的内容有没有用呢?我们不妨一个个删除试试,最终得到不能再搜段的入口页面的url如下:

https://image.baidu.com/search/index?tn=baiduimage&word=selenium

然后我们试着用打开的浏览器来访问这个url,在idle中输入日下命令:

url = "https://image.baidu.com/search/index?tn=baiduimage&word=selenium"
driver.get(url)

此时空白的浏览器就显示了百度图片搜索selenium的结果如下图:

寻找图片链接:

下面要做的就是爬虫的基本功了,在网页的源码中找图片的高请链接,按F12打开开发者选项,可以找到这样一个链接:

鼠标放在上面会看到这是一张缩略图的地址,复制链接查看,图片地址是加密,并不是我们想要的,所以点击图片进入另一个页面,再去查找,在大图的背后找到了同一张图片的另一个连接,如下:

复制这个链接在查看,bingo。接下来就要写代码,批量获取图片地址了。

批量获取图片链接

思路是这样的,因为百度图片的查看大图页面的翻页链接是高度加密的,很难用get方法在页面中获取到翻页链接,另外,进入查看大图的页面上也很难获取到大图的链接,与其破解加密方法,还不如等待网页自己加载完全了再去获取链接,这就是selenium方法的无可比拟的优势,你所有在浏览器上看到的内容肯定都可以下载。所以方法就是首先搜索主题,然后模拟点击进入大图页面,然后{获取连接,模拟点击翻页}做循环。获取一定数量的图片就可以了。下面是代码:

from selenium import webdriver
import time
import os
import lxml
import lxml.html
import cssselect
from lxml import etree
import re
import numpy
from urllib import request
from urllib import parse# get方法打开一个连接
def url_open(url):res = request.Request(url)res.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0;Win64;x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134")html = request.urlopen(res,timeout = 60).read()return html# 隐式打开一个浏览器
def open_Explor():options = webdriver.ChromeOptions()options.add_argument('headless')driver = webdriver.Chrome(chrome_options=options)return driver
##保存图片到本地
def save(url):html = url_open(url)name = url[len(url)-15:len(url)]with open(name, "wb") as p:p.write(html)p.close()# 主函数
def main(key,type = 0,n = 20):#key:搜索关键词,type:图片尺寸类型,n:下载图片数量
#这里加入两个参数用来筛选图片的尺寸size = ["",                   ##任意尺寸"&width=1920&height=1080",##电脑壁纸"&width=2560&height=1440",##手机壁纸]# 网页链接中不能出现中文,所以要对关键词进行转码,用到了quote函数。key_word = parse.quote(str(key))# 设置路径到桌面,这里要根据电脑做修改os.chdir('C:/Users/lenovo/Desktop/')# 在新设路径下建立文件夹,一搜索关键词命名os.mkdir(key)# 设置路径到新建文件夹os.chdir('C:/Users/lenovo/Desktop/' + key)# 拼接起始页面地址url = "https://image.baidu.com/search/index?tn=baiduimage&word=" + key_word + size[type]# 打开浏览器并访问起始页driver = open_Explor()driver.get(url)# 进入大图页面页面,这里有两点注意,第一点是百度图片搜索之后会有广告图片在前# 几张,点击进入的是一个广告页,所以从第十张图片开始下载。第二点是起始页地址# 的xpath还有一种不常见的形式,放在except中。另xpath可以用谷歌开发者工具# 复制得到,然后再做小修改即可。try:hre = driver.find_element_by_xpath('//*[@id="imgid"]/div/ul/li[10]/div/a')except:hre = driver.find_element_by_xpath('//*[@id="imgid"]/div/ul/li[10]/div/div[1]/a')next_url = hre.get_attribute("href")driver.get(next_url)# 循环获取图片链接并下载图片for num in range(0,n):time.sleep(1)#等待网页加载,很必要,不然无法获取到新页面源代码html = driver.page_source#获取网页源码a = re.findall(r'src="([^<]+?\.jpg)',html)#正则获取图片地址if 'baidu' in a[0]:#这里的选择由页面细节决定,不介绍,想了解的可以用debug模式看一下。url = a[0].replace("amp;",'')save(url)print(num+1,"存入成功")else:print(num + 1, "存入失败")driver.find_element_by_xpath('//*[@id="container"]/span[2]').click()#翻到下一页print("完成!")key = input("请输入搜索关键词")
type = int(input("请输入大小信息"))
num = int(input("下载多少张?"))
main(key = key,type = type,n= num)

以上代码可以在idle中直接运行,输入对应的参数即可直接获取到想要的图片。不过话说回来,这种方法虽然万能,不用考录加密和动态加载问题,但是有一点,速度会相对较慢,而且由于网速的问题,网页动态加载的部分太慢也会有问题。所以有志于深度页面爬取的同学一定要花时间研究网页的js方法。
以上内容为摸索得到,如有不当,请指出,定虚心接受。

这篇关于用Python的selenium包从百度图片上爬想要的图片的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/197811

相关文章

Java调用Python的四种方法小结

《Java调用Python的四种方法小结》在现代开发中,结合不同编程语言的优势往往能达到事半功倍的效果,本文将详细介绍四种在Java中调用Python的方法,并推荐一种最常用且实用的方法,希望对大家有... 目录一、在Java类中直接执行python语句二、在Java中直接调用Python脚本三、使用Run

使用Python开发Markdown兼容公式格式转换工具

《使用Python开发Markdown兼容公式格式转换工具》在技术写作中我们经常遇到公式格式问题,例如MathML无法显示,LaTeX格式错乱等,所以本文我们将使用Python开发Markdown兼容... 目录一、工具背景二、环境配置(Windows 10/11)1. 创建conda环境2. 获取XSLT

Python如何调用指定路径的模块

《Python如何调用指定路径的模块》要在Python中调用指定路径的模块,可以使用sys.path.append,importlib.util.spec_from_file_location和exe... 目录一、sys.path.append() 方法1. 方法简介2. 使用示例3. 注意事项二、imp

PyQt5+Python-docx实现一键生成测试报告

《PyQt5+Python-docx实现一键生成测试报告》作为一名测试工程师,你是否经历过手动填写测试报告的痛苦,本文将用Python的PyQt5和python-docx库,打造一款测试报告一键生成工... 目录引言工具功能亮点工具设计思路1. 界面设计:PyQt5实现数据输入2. 文档生成:python-

Python中Flask模板的使用与高级技巧详解

《Python中Flask模板的使用与高级技巧详解》在Web开发中,直接将HTML代码写在Python文件中会导致诸多问题,Flask内置了Jinja2模板引擎,完美解决了这些问题,下面我们就来看看F... 目录一、模板渲染基础1.1 为什么需要模板引擎1.2 第一个模板渲染示例1.3 模板渲染原理二、模板

使用Python创建一个功能完整的Windows风格计算器程序

《使用Python创建一个功能完整的Windows风格计算器程序》:本文主要介绍如何使用Python和Tkinter创建一个功能完整的Windows风格计算器程序,包括基本运算、高级科学计算(如三... 目录python实现Windows系统计算器程序(含高级功能)1. 使用Tkinter实现基础计算器2.

Python开发文字版随机事件游戏的项目实例

《Python开发文字版随机事件游戏的项目实例》随机事件游戏是一种通过生成不可预测的事件来增强游戏体验的类型,在这篇博文中,我们将使用Python开发一款文字版随机事件游戏,通过这个项目,读者不仅能够... 目录项目概述2.1 游戏概念2.2 游戏特色2.3 目标玩家群体技术选择与环境准备3.1 开发环境3

Python中模块graphviz使用入门

《Python中模块graphviz使用入门》graphviz是一个用于创建和操作图形的Python库,本文主要介绍了Python中模块graphviz使用入门,具有一定的参考价值,感兴趣的可以了解一... 目录1.安装2. 基本用法2.1 输出图像格式2.2 图像style设置2.3 属性2.4 子图和聚

Python使用Matplotlib绘制3D曲面图详解

《Python使用Matplotlib绘制3D曲面图详解》:本文主要介绍Python使用Matplotlib绘制3D曲面图,在Python中,使用Matplotlib库绘制3D曲面图可以通过mpl... 目录准备工作绘制简单的 3D 曲面图绘制 3D 曲面图添加线框和透明度控制图形视角Matplotlib

一文教你Python如何快速精准抓取网页数据

《一文教你Python如何快速精准抓取网页数据》这篇文章主要为大家详细介绍了如何利用Python实现快速精准抓取网页数据,文中的示例代码简洁易懂,具有一定的借鉴价值,有需要的小伙伴可以了解下... 目录1. 准备工作2. 基础爬虫实现3. 高级功能扩展3.1 抓取文章详情3.2 保存数据到文件4. 完整示例