python selenium+phontomjs的详细用法及简单案例

2024-03-10 17:48

本文主要是介绍python selenium+phontomjs的详细用法及简单案例,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

运行环境python2.7

相关模块需要自行下载安装

将phontomjs插件放入环境变量所在的路径


(提示:1.因为phontomjs是无界面浏览器,所以可以通过截图来直观展示  2.selenium类似于按键精灵,代替手动点击网页)


模拟访问百度并截图

#coding:utf8
# 导入包
from selenium import webdriver# 使用插件phontomjs
driver=webdriver.PhantomJS()#访问百度
driver.get("http://www.baidu.com/")#截图
driver.save_screenshot("baidu.png")




模拟浏览器的前进和后退


#coding:utf8
from selenium import webdriver
obj=webdriver.PhantomJS()
try:obj.get('http://www.baidu.com') #访问百度obj.save_screenshot('13.png')obj.get('http://www.sina.com.cn') #访问新浪obj.save_screenshot('14.png')obj.back()          #返回百度obj.save_screenshot('15.png')obj.forward()       #前进到新浪obj.save_screenshot('16.png')
except Exception as e:print e

设置浏览器的宽高

#coding:utf8
from selenium import webdriver
obj=webdriver.PhantomJS()
obj.set_page_load_timeout(5)
obj.set_window_size('360','360') #设置浏览器宽高为480,800
try:obj.get("http://www.baidu.com")obj.save_screenshot('12.png') #截图
except Exception as e:print e

对页面对话框等做一些操作

#coding:utf-8
from selenium import webdriver
obj=webdriver.PhantomJS()
obj.set_page_load_timeout(50)
try:obj.get('http://www.baidu.com')print obj.find_element_by_id("cp").text #获取元素的文本信息obj.find_element_by_id('kw').clear()  #清除输入框内容obj.find_element_by_id('kw').send_keys('hello')  #在输入框内输入helloobj.find_element_by_id('su').click()    #用于点击按钮# obj.find_element_by_id('su').submit()   #用于提交表单内容obj.save_screenshot('17.png')
except Exception as e:print e

截取全屏

#coding:utf8
from selenium import webdriver
obj=webdriver.PhantomJS()
obj.set_page_load_timeout(5)#设置全屏
obj.maximize_window()try:obj.get("http://www.baidu.com")obj.save_screenshot('11.png')
except Exception as e:print e

定位节点和标签

#coding:utf8
from selenium import webdriverobj = webdriver.PhantomJS()
obj.set_page_load_timeout(5)
try:obj.get('http://www.baidu.com')obj.find_element_by_id('kw')  # 通过ID定位obj.find_element_by_class_name('s_ipt')  # 通过class属性定位obj.find_element_by_name('wd')  # 通过标签name属性定位obj.find_element_by_tag_name('input')  # 通过标签属性定位obj.find_element_by_css_selector('#kw')  # 通过css方式定位obj.find_element_by_xpath("//input[@id='kw']")  # 通过xpath方式定位obj.find_element_by_link_text("贴吧")  # 通过xpath方式定位print obj.find_element_by_id('kw').tag_name  # 获取标签的类型
except Exception as e:print e

添加代理和报头

#coding:utf8
from selenium import webdriver
from random import choiceuser_agent=["Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36""Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0""Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299""Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50"
]# 引入配置对象DesiredCapabilities
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
dcap = dict(DesiredCapabilities.PHANTOMJS)
#从USER_AGENTS列表中随机选一个浏览器头,伪装浏览器
dcap["phantomjs.page.settings.userAgent"] = (choice(user_agent))
# 不载入图片,爬页面速度会快很多
dcap["phantomjs.page.settings.loadImages"] = False
# 设置代理
service_args = ['--proxy=61.135.217.7:80','--proxy-type=socks5']
#打开带配置信息的phantomJS浏览器
driver = webdriver.PhantomJS( desired_capabilities=dcap,service_args=service_args)
# 隐式等待5秒,可以自己调节
driver.implicitly_wait(5)
# 设置10秒页面超时返回,类似于requests.get()的timeout选项,driver.get()没有timeout选项
# 以前遇到过driver.get(url)一直不返回,但也不报错的问题,这时程序会卡住,设置超时选项能解决这个问题。
driver.set_page_load_timeout(10)
# 设置10秒脚本超时时间
driver.set_script_timeout(10)driver.get('http://ip38.com/')
driver.save_screenshot("5.png")



键盘事件

#coding:utf8
from selenium.webdriver.common.keys import Keys
from selenium import webdriver
obj=webdriver.PhantomJS()
obj.set_page_load_timeout(10)
try:obj.get('http://www.baidu.com')obj.find_element_by_id('kw').send_keys(Keys.TAB)obj.find_element_by_id('kw').send_keys('hello')obj.find_element_by_id('kw').send_keys(Keys.CONTROL,'a')   #ctrl + a 全选输入框内容obj.find_element_by_id('kw').send_keys(Keys.CONTROL,'x')   #ctrl + x 剪切输入框内容obj.find_element_by_id('kw').send_keys(u'美女')obj.find_element_by_id('su').send_keys(Keys.ENTER)obj.save_screenshot('18.png')except Exception as e:print e

添加代理ip
#coding:utf8
from selenium import webdriverbrowser=webdriver.PhantomJS()
# browser.get('http://ip38.com/')
# browser.save_screenshot("3.png")  # 截图保存# 利用DesiredCapabilities(代理设置)参数值,重新打开一个sessionId,我看意思就相当于浏览器清空缓存后,加上代理重新访问一次url
proxy=webdriver.Proxy()
proxy.http_proxy='112.74.32.237:6666'
# 将代理设置添加到webdriver.DesiredCapabilities.PHANTOMJS中
proxy.add_to_capabilities(webdriver.DesiredCapabilities.PHANTOMJS)
browser.start_session(webdriver.DesiredCapabilities.PHANTOMJS)
browser.get('http://ip38.com/')
browser.save_screenshot("2.png")# 还原为系统代理
# proxy=webdriver.Proxy()
# # proxy.proxy_type=ProxyType.DIRECT
# proxy.add_to_capabilities(webdriver.DesiredCapabilities.PHANTOMJS)
# browser.start_session(webdriver.DesiredCapabilities.PHANTOMJS)
# browser.get('http://ip38.com/')


这篇关于python selenium+phontomjs的详细用法及简单案例的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/795014

相关文章

Python中你不知道的gzip高级用法分享

《Python中你不知道的gzip高级用法分享》在当今大数据时代,数据存储和传输成本已成为每个开发者必须考虑的问题,Python内置的gzip模块提供了一种简单高效的解决方案,下面小编就来和大家详细讲... 目录前言:为什么数据压缩如此重要1. gzip 模块基础介绍2. 基本压缩与解压缩操作2.1 压缩文

Python设置Cookie永不超时的详细指南

《Python设置Cookie永不超时的详细指南》Cookie是一种存储在用户浏览器中的小型数据片段,用于记录用户的登录状态、偏好设置等信息,下面小编就来和大家详细讲讲Python如何设置Cookie... 目录一、Cookie的作用与重要性二、Cookie过期的原因三、实现Cookie永不超时的方法(一)

Python内置函数之classmethod函数使用详解

《Python内置函数之classmethod函数使用详解》:本文主要介绍Python内置函数之classmethod函数使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录1. 类方法定义与基本语法2. 类方法 vs 实例方法 vs 静态方法3. 核心特性与用法(1编程客

Python函数作用域示例详解

《Python函数作用域示例详解》本文介绍了Python中的LEGB作用域规则,详细解析了变量查找的四个层级,通过具体代码示例,展示了各层级的变量访问规则和特性,对python函数作用域相关知识感兴趣... 目录一、LEGB 规则二、作用域实例2.1 局部作用域(Local)2.2 闭包作用域(Enclos

Python实现对阿里云OSS对象存储的操作详解

《Python实现对阿里云OSS对象存储的操作详解》这篇文章主要为大家详细介绍了Python实现对阿里云OSS对象存储的操作相关知识,包括连接,上传,下载,列举等功能,感兴趣的小伙伴可以了解下... 目录一、直接使用代码二、详细使用1. 环境准备2. 初始化配置3. bucket配置创建4. 文件上传到os

解读GC日志中的各项指标用法

《解读GC日志中的各项指标用法》:本文主要介绍GC日志中的各项指标用法,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、基础 GC 日志格式(以 G1 为例)1. Minor GC 日志2. Full GC 日志二、关键指标解析1. GC 类型与触发原因2. 堆

使用Python实现可恢复式多线程下载器

《使用Python实现可恢复式多线程下载器》在数字时代,大文件下载已成为日常操作,本文将手把手教你用Python打造专业级下载器,实现断点续传,多线程加速,速度限制等功能,感兴趣的小伙伴可以了解下... 目录一、智能续传:从崩溃边缘抢救进度二、多线程加速:榨干网络带宽三、速度控制:做网络的好邻居四、终端交互

Python中注释使用方法举例详解

《Python中注释使用方法举例详解》在Python编程语言中注释是必不可少的一部分,它有助于提高代码的可读性和维护性,:本文主要介绍Python中注释使用方法的相关资料,需要的朋友可以参考下... 目录一、前言二、什么是注释?示例:三、单行注释语法:以 China编程# 开头,后面的内容为注释内容示例:示例:四

Python中win32包的安装及常见用途介绍

《Python中win32包的安装及常见用途介绍》在Windows环境下,PythonWin32模块通常随Python安装包一起安装,:本文主要介绍Python中win32包的安装及常见用途的相关... 目录前言主要组件安装方法常见用途1. 操作Windows注册表2. 操作Windows服务3. 窗口操作

SpringBoot整合liteflow的详细过程

《SpringBoot整合liteflow的详细过程》:本文主要介绍SpringBoot整合liteflow的详细过程,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋...  liteflow 是什么? 能做什么?总之一句话:能帮你规范写代码逻辑 ,编排并解耦业务逻辑,代码