从入门到入土:学习|实例练手|获取裁判决定网|Selenium出击|绕过反爬机制|实现批量下载裁决书|狗头保命|仅用于学习交流|Selenium自动化操作

本文主要是介绍从入门到入土:学习|实例练手|获取裁判决定网|Selenium出击|绕过反爬机制|实现批量下载裁决书|狗头保命|仅用于学习交流|Selenium自动化操作,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出。欢迎各位前来交流。(部分材料来源网络,若有侵权,立即删除)
本人博客所有文章纯属学习之用,不涉及商业利益。不合适引用,自当删除!
若被用于非法行为,与我本人无关
仅用于学习交流,若用于商业行为或违法行为,后果自负

学习|实例练手|获取裁判决定网

  • 情况说明
  • 代码分析
  • 代码展示
  • 运行结果
  • 总结

情况说明

  • 最近在学习法律

  • 想了解一系列的案例

  • 但是呢在对应的学习网站一个一个下载会很慢诶

  • 那就结合一下最近学习的内容

  • 在不吃牢饭的前提下,让电脑自己突然抽搐并且开始帮我下载案例文件,省得我一个一个点吧

  • 基于selenium进行了一些自动化操作

  • 主要分为Cookie的获取与用自己的账号模拟登录,然后让浏览器帮我们一个一个点下载的超链接

  • 关于cookies的获取和模拟登录可以看这里

代码分析

  • 库的引用
import time
import json
from selenium import webdriver
  • cookies获取函数
def get_cookies():driver = webdriver.Chrome()url='https://wenshu.court.gov.cn/'driver.get(url)#发送请求#打开之后,手动登录一次time.sleep(3)input('完成登陆后点击enter:')time.sleep(3)dictcookies = driver.get_cookies()  # 获取cookiesjsoncookies = json.dumps(dictcookies)  # 转换成字符串保存with open('cookie.txt', 'w') as f:f.write(jsoncookies)print('cookies保存成功!')driver.close()
  • 携带cookies进行访问网页
def test():driver = webdriver.Chrome()url = 'https://wenshu.court.gov.cn/'driver.get(url)  # 发送请求# 打开之后,手动登录一次time.sleep(3)with open('cookie.txt', 'r', encoding='utf8') as f:listCookies = json.loads(f.read())for cookie in listCookies:cookie_dict = {'domain': '.wenshu.court.gov.cn','name': cookie.get('name'),'value': cookie.get('value'),"expires": '','path': '/','httpOnly': False,'HostOnly': False,'Secure': False}driver.add_cookie(cookie_dict)driver.refresh()  # 刷新网页,才能实现cookie导入
  • 搜索活动
time.sleep(3)what=input("请输入查询关键词:")#输入参数driver.find_element_by_xpath('//*[@id="_view_1540966814000"]/div/div[1]/div[2]/input').clear()  # 清空搜索框time.sleep(0.5)driver.find_element_by_xpath('//*[@id="_view_1540966814000"]/div/div[1]/div[2]/input').send_keys("{}".format(what))  # 输入搜索内容time.sleep(0.5)WHAT = driver.find_element_by_xpath('//*[@id="_view_1540966814000"]/div/div[1]/div[3]')WHAT.click()#模拟鼠标动作点击driver.refresh()  # 刷新网页,才能实现cookie导入
  • 循环所有页面,依次定位并点击对应下载的位置
time.sleep(1)#driver.refresh()for i in range(1):for j in range(3,8):WHAT =driver.find_element_by_xpath('//*[@id="_view_1545184311000"]/div[{}]/div[6]/div/a[2]'.format(j))WHAT.click()driver.refresh()  # 刷新网页,才能实现cookie导入time.sleep(2)input("")driver.refresh()  # 刷新网页,才能实现cookie导入

代码展示

import time
import json
from selenium import webdriverdef get_cookies():driver = webdriver.Chrome()url='https://wenshu.court.gov.cn/'driver.get(url)#发送请求#打开之后,手动登录一次time.sleep(3)input('完成登陆后点击enter:')time.sleep(3)dictcookies = driver.get_cookies()  # 获取cookiesjsoncookies = json.dumps(dictcookies)  # 转换成字符串保存with open('cookie.txt', 'w') as f:f.write(jsoncookies)print('cookies保存成功!')driver.close()def test():driver = webdriver.Chrome()url = 'https://wenshu.court.gov.cn/'driver.get(url)  # 发送请求# 打开之后,手动登录一次time.sleep(3)with open('cookie.txt', 'r', encoding='utf8') as f:listCookies = json.loads(f.read())for cookie in listCookies:cookie_dict = {'domain': '.wenshu.court.gov.cn','name': cookie.get('name'),'value': cookie.get('value'),"expires": '','path': '/','httpOnly': False,'HostOnly': False,'Secure': False}driver.add_cookie(cookie_dict)driver.refresh()  # 刷新网页,才能实现cookie导入#print(cookie_dict)time.sleep(3)what=input("请输入查询关键词:")driver.find_element_by_xpath('//*[@id="_view_1540966814000"]/div/div[1]/div[2]/input').clear()  # 清空搜索框time.sleep(0.5)driver.find_element_by_xpath('//*[@id="_view_1540966814000"]/div/div[1]/div[2]/input').send_keys("{}".format(what))  # 输入搜索内容time.sleep(0.5)WHAT = driver.find_element_by_xpath('//*[@id="_view_1540966814000"]/div/div[1]/div[3]')WHAT.click()driver.refresh()  # 刷新网页,才能实现cookie导入time.sleep(1)#driver.refresh()for i in range(1):for j in range(3,8):WHAT =driver.find_element_by_xpath('//*[@id="_view_1545184311000"]/div[{}]/div[6]/div/a[2]'.format(j))WHAT.click()driver.refresh()  # 刷新网页,才能实现cookie导入time.sleep(2)input("")driver.refresh()  # 刷新网页,才能实现cookie导入if __name__ == "__main__":#get_cookies()test()

运行结果

在这里插入图片描述
在这里插入图片描述

总结

  • 多使用time.sleep()
  • 然后客观地说,并不属于爬虫,是基于Selenium自动化操作
  • 手动狗头

这篇关于从入门到入土:学习|实例练手|获取裁判决定网|Selenium出击|绕过反爬机制|实现批量下载裁决书|狗头保命|仅用于学习交流|Selenium自动化操作的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/362019

相关文章

python panda库从基础到高级操作分析

《pythonpanda库从基础到高级操作分析》本文介绍了Pandas库的核心功能,包括处理结构化数据的Series和DataFrame数据结构,数据读取、清洗、分组聚合、合并、时间序列分析及大数据... 目录1. Pandas 概述2. 基本操作:数据读取与查看3. 索引操作:精准定位数据4. Group

Redis客户端连接机制的实现方案

《Redis客户端连接机制的实现方案》本文主要介绍了Redis客户端连接机制的实现方案,包括事件驱动模型、非阻塞I/O处理、连接池应用及配置优化,具有一定的参考价值,感兴趣的可以了解一下... 目录1. Redis连接模型概述2. 连接建立过程详解2.1 连php接初始化流程2.2 关键配置参数3. 最大连

Spring WebClient从入门到精通

《SpringWebClient从入门到精通》本文详解SpringWebClient非阻塞响应式特性及优势,涵盖核心API、实战应用与性能优化,对比RestTemplate,为微服务通信提供高效解决... 目录一、WebClient 概述1.1 为什么选择 WebClient?1.2 WebClient 与

Python操作PDF文档的主流库使用指南

《Python操作PDF文档的主流库使用指南》PDF因其跨平台、格式固定的特性成为文档交换的标准,然而,由于其复杂的内部结构,程序化操作PDF一直是个挑战,本文主要为大家整理了Python操作PD... 目录一、 基础操作1.PyPDF2 (及其继任者 pypdf)2.PyMuPDF / fitz3.Fre

Python对接支付宝支付之使用AliPay实现的详细操作指南

《Python对接支付宝支付之使用AliPay实现的详细操作指南》支付宝没有提供PythonSDK,但是强大的github就有提供python-alipay-sdk,封装里很多复杂操作,使用这个我们就... 目录一、引言二、准备工作2.1 支付宝开放平台入驻与应用创建2.2 密钥生成与配置2.3 安装ali

Spring Security 单点登录与自动登录机制的实现原理

《SpringSecurity单点登录与自动登录机制的实现原理》本文探讨SpringSecurity实现单点登录(SSO)与自动登录机制,涵盖JWT跨系统认证、RememberMe持久化Token... 目录一、核心概念解析1.1 单点登录(SSO)1.2 自动登录(Remember Me)二、代码分析三、

MySQL 强制使用特定索引的操作

《MySQL强制使用特定索引的操作》MySQL可通过FORCEINDEX、USEINDEX等语法强制查询使用特定索引,但优化器可能不采纳,需结合EXPLAIN分析执行计划,避免性能下降,注意版本差异... 目录1. 使用FORCE INDEX语法2. 使用USE INDEX语法3. 使用IGNORE IND

Python获取浏览器Cookies的四种方式小结

《Python获取浏览器Cookies的四种方式小结》在进行Web应用程序测试和开发时,获取浏览器Cookies是一项重要任务,本文我们介绍四种用Python获取浏览器Cookies的方式,具有一定的... 目录什么是 Cookie?1.使用Selenium库获取浏览器Cookies2.使用浏览器开发者工具

Java获取当前时间String类型和Date类型方式

《Java获取当前时间String类型和Date类型方式》:本文主要介绍Java获取当前时间String类型和Date类型方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录Java获取当前时间String和Date类型String类型和Date类型输出结果总结Java获取

Python实现批量提取BLF文件时间戳

《Python实现批量提取BLF文件时间戳》BLF(BinaryLoggingFormat)作为Vector公司推出的CAN总线数据记录格式,被广泛用于存储车辆通信数据,本文将使用Python轻松提取... 目录一、为什么需要批量处理 BLF 文件二、核心代码解析:从文件遍历到数据导出1. 环境准备与依赖库