从入门到入土:学习|实例练手|获取裁判决定网|Selenium出击|绕过反爬机制|实现批量下载裁决书|狗头保命|仅用于学习交流|Selenium自动化操作

本文主要是介绍从入门到入土:学习|实例练手|获取裁判决定网|Selenium出击|绕过反爬机制|实现批量下载裁决书|狗头保命|仅用于学习交流|Selenium自动化操作,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出。欢迎各位前来交流。(部分材料来源网络,若有侵权,立即删除)
本人博客所有文章纯属学习之用,不涉及商业利益。不合适引用,自当删除!
若被用于非法行为,与我本人无关
仅用于学习交流,若用于商业行为或违法行为,后果自负

学习|实例练手|获取裁判决定网

  • 情况说明
  • 代码分析
  • 代码展示
  • 运行结果
  • 总结

情况说明

  • 最近在学习法律

  • 想了解一系列的案例

  • 但是呢在对应的学习网站一个一个下载会很慢诶

  • 那就结合一下最近学习的内容

  • 在不吃牢饭的前提下,让电脑自己突然抽搐并且开始帮我下载案例文件,省得我一个一个点吧

  • 基于selenium进行了一些自动化操作

  • 主要分为Cookie的获取与用自己的账号模拟登录,然后让浏览器帮我们一个一个点下载的超链接

  • 关于cookies的获取和模拟登录可以看这里

代码分析

  • 库的引用
import time
import json
from selenium import webdriver
  • cookies获取函数
def get_cookies():driver = webdriver.Chrome()url='https://wenshu.court.gov.cn/'driver.get(url)#发送请求#打开之后,手动登录一次time.sleep(3)input('完成登陆后点击enter:')time.sleep(3)dictcookies = driver.get_cookies()  # 获取cookiesjsoncookies = json.dumps(dictcookies)  # 转换成字符串保存with open('cookie.txt', 'w') as f:f.write(jsoncookies)print('cookies保存成功!')driver.close()
  • 携带cookies进行访问网页
def test():driver = webdriver.Chrome()url = 'https://wenshu.court.gov.cn/'driver.get(url)  # 发送请求# 打开之后,手动登录一次time.sleep(3)with open('cookie.txt', 'r', encoding='utf8') as f:listCookies = json.loads(f.read())for cookie in listCookies:cookie_dict = {'domain': '.wenshu.court.gov.cn','name': cookie.get('name'),'value': cookie.get('value'),"expires": '','path': '/','httpOnly': False,'HostOnly': False,'Secure': False}driver.add_cookie(cookie_dict)driver.refresh()  # 刷新网页,才能实现cookie导入
  • 搜索活动
time.sleep(3)what=input("请输入查询关键词:")#输入参数driver.find_element_by_xpath('//*[@id="_view_1540966814000"]/div/div[1]/div[2]/input').clear()  # 清空搜索框time.sleep(0.5)driver.find_element_by_xpath('//*[@id="_view_1540966814000"]/div/div[1]/div[2]/input').send_keys("{}".format(what))  # 输入搜索内容time.sleep(0.5)WHAT = driver.find_element_by_xpath('//*[@id="_view_1540966814000"]/div/div[1]/div[3]')WHAT.click()#模拟鼠标动作点击driver.refresh()  # 刷新网页,才能实现cookie导入
  • 循环所有页面,依次定位并点击对应下载的位置
time.sleep(1)#driver.refresh()for i in range(1):for j in range(3,8):WHAT =driver.find_element_by_xpath('//*[@id="_view_1545184311000"]/div[{}]/div[6]/div/a[2]'.format(j))WHAT.click()driver.refresh()  # 刷新网页,才能实现cookie导入time.sleep(2)input("")driver.refresh()  # 刷新网页,才能实现cookie导入

代码展示

import time
import json
from selenium import webdriverdef get_cookies():driver = webdriver.Chrome()url='https://wenshu.court.gov.cn/'driver.get(url)#发送请求#打开之后,手动登录一次time.sleep(3)input('完成登陆后点击enter:')time.sleep(3)dictcookies = driver.get_cookies()  # 获取cookiesjsoncookies = json.dumps(dictcookies)  # 转换成字符串保存with open('cookie.txt', 'w') as f:f.write(jsoncookies)print('cookies保存成功!')driver.close()def test():driver = webdriver.Chrome()url = 'https://wenshu.court.gov.cn/'driver.get(url)  # 发送请求# 打开之后,手动登录一次time.sleep(3)with open('cookie.txt', 'r', encoding='utf8') as f:listCookies = json.loads(f.read())for cookie in listCookies:cookie_dict = {'domain': '.wenshu.court.gov.cn','name': cookie.get('name'),'value': cookie.get('value'),"expires": '','path': '/','httpOnly': False,'HostOnly': False,'Secure': False}driver.add_cookie(cookie_dict)driver.refresh()  # 刷新网页,才能实现cookie导入#print(cookie_dict)time.sleep(3)what=input("请输入查询关键词:")driver.find_element_by_xpath('//*[@id="_view_1540966814000"]/div/div[1]/div[2]/input').clear()  # 清空搜索框time.sleep(0.5)driver.find_element_by_xpath('//*[@id="_view_1540966814000"]/div/div[1]/div[2]/input').send_keys("{}".format(what))  # 输入搜索内容time.sleep(0.5)WHAT = driver.find_element_by_xpath('//*[@id="_view_1540966814000"]/div/div[1]/div[3]')WHAT.click()driver.refresh()  # 刷新网页,才能实现cookie导入time.sleep(1)#driver.refresh()for i in range(1):for j in range(3,8):WHAT =driver.find_element_by_xpath('//*[@id="_view_1545184311000"]/div[{}]/div[6]/div/a[2]'.format(j))WHAT.click()driver.refresh()  # 刷新网页,才能实现cookie导入time.sleep(2)input("")driver.refresh()  # 刷新网页,才能实现cookie导入if __name__ == "__main__":#get_cookies()test()

运行结果

在这里插入图片描述
在这里插入图片描述

总结

  • 多使用time.sleep()
  • 然后客观地说,并不属于爬虫,是基于Selenium自动化操作
  • 手动狗头

这篇关于从入门到入土:学习|实例练手|获取裁判决定网|Selenium出击|绕过反爬机制|实现批量下载裁决书|狗头保命|仅用于学习交流|Selenium自动化操作的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/362019

相关文章

MySQL DQL从入门到精通

《MySQLDQL从入门到精通》通过DQL,我们可以从数据库中检索出所需的数据,进行各种复杂的数据分析和处理,本文将深入探讨MySQLDQL的各个方面,帮助你全面掌握这一重要技能,感兴趣的朋友跟随小... 目录一、DQL 基础:SELECT 语句入门二、数据过滤:WHERE 子句的使用三、结果排序:ORDE

springboot下载接口限速功能实现

《springboot下载接口限速功能实现》通过Redis统计并发数动态调整每个用户带宽,核心逻辑为每秒读取并发送限定数据量,防止单用户占用过多资源,确保整体下载均衡且高效,本文给大家介绍spring... 目录 一、整体目标 二、涉及的主要类/方法✅ 三、核心流程图解(简化) 四、关键代码详解1️⃣ 设置

SpringMVC高效获取JavaBean对象指南

《SpringMVC高效获取JavaBean对象指南》SpringMVC通过数据绑定自动将请求参数映射到JavaBean,支持表单、URL及JSON数据,需用@ModelAttribute、@Requ... 目录Spring MVC 获取 JavaBean 对象指南核心机制:数据绑定实现步骤1. 定义 Ja

PostgreSQL中MVCC 机制的实现

《PostgreSQL中MVCC机制的实现》本文主要介绍了PostgreSQL中MVCC机制的实现,通过多版本数据存储、快照隔离和事务ID管理实现高并发读写,具有一定的参考价值,感兴趣的可以了解一下... 目录一 MVCC 基本原理python1.1 MVCC 核心概念1.2 与传统锁机制对比二 Postg

C++中RAII资源获取即初始化

《C++中RAII资源获取即初始化》RAII通过构造/析构自动管理资源生命周期,确保安全释放,本文就来介绍一下C++中的RAII技术及其应用,具有一定的参考价值,感兴趣的可以了解一下... 目录一、核心原理与机制二、标准库中的RAII实现三、自定义RAII类设计原则四、常见应用场景1. 内存管理2. 文件操

Python实例题之pygame开发打飞机游戏实例代码

《Python实例题之pygame开发打飞机游戏实例代码》对于python的学习者,能够写出一个飞机大战的程序代码,是不是感觉到非常的开心,:本文主要介绍Python实例题之pygame开发打飞机... 目录题目pygame-aircraft-game使用 Pygame 开发的打飞机游戏脚本代码解释初始化部

Python pip下载包及所有依赖到指定文件夹的步骤说明

《Pythonpip下载包及所有依赖到指定文件夹的步骤说明》为了方便开发和部署,我们常常需要将Python项目所依赖的第三方包导出到本地文件夹中,:本文主要介绍Pythonpip下载包及所有依... 目录步骤说明命令格式示例参数说明离线安装方法注意事项总结要使用pip下载包及其所有依赖到指定文件夹,请按照以

Maven 配置中的 <mirror>绕过 HTTP 阻断机制的方法

《Maven配置中的<mirror>绕过HTTP阻断机制的方法》:本文主要介绍Maven配置中的<mirror>绕过HTTP阻断机制的方法,本文给大家分享问题原因及解决方案,感兴趣的朋友一... 目录一、问题场景:升级 Maven 后构建失败二、解决方案:通过 <mirror> 配置覆盖默认行为1. 配置示

SQL中JOIN操作的条件使用总结与实践

《SQL中JOIN操作的条件使用总结与实践》在SQL查询中,JOIN操作是多表关联的核心工具,本文将从原理,场景和最佳实践三个方面总结JOIN条件的使用规则,希望可以帮助开发者精准控制查询逻辑... 目录一、ON与WHERE的本质区别二、场景化条件使用规则三、最佳实践建议1.优先使用ON条件2.WHERE用

SpringBoot服务获取Pod当前IP的两种方案

《SpringBoot服务获取Pod当前IP的两种方案》在Kubernetes集群中,SpringBoot服务获取Pod当前IP的方案主要有两种,通过环境变量注入或通过Java代码动态获取网络接口IP... 目录方案一:通过 Kubernetes Downward API 注入环境变量原理步骤方案二:通过