模拟登录古诗文网(模拟登录,验证码识别)

2023-12-12 20:30

本文主要是介绍模拟登录古诗文网(模拟登录,验证码识别),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  • 代码第一次编写
  1. url = 'https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx'
    page_text = requests.get(url=url, headers=headers).content# 实例化及获取验证码图片
    tree = etree.HTML(page_text)
    src = 'https://so.gushiwen.cn/' + tree.xpath('//*[@id="imgCode"]/@src')[0]
    img_date = requests.get(url=src, headers=headers).content
    # 将验证码图片保存到本地
    with open('./card.jpg', 'wb')as fp:fp.write(img_date)
    time.sleep(1)
    text = pytesseract.image_to_string(Image.open('card.jpg'))
    print(text)# 模拟登录
    load_url = 'https://so.gushiwen.cn/user/login.aspx?from=http%3a%2f%2fso.gushiwen.cn%2fuser%2fcollect.aspx'
    load_data = {'from': 'http://so.gushiwen.cn/user/ collect.aspx','email': '','pwd': '','code': text,'denglu': '登录'
    }
    login_text=requests.post(url=load_url, data=load_data,headers=headers).text
    with open('login.html','w',encoding='utf-8') as fp:fp.write(login_text)

古诗文网有两个问题:1.__VIEWSTATE参数是动态的;2.登录时状态码是302,发生了重定位。

暂时先学到这里,之后有其他的办法再作以修改

代码编写于2023.8.4 代码正常运行 提示验证码错误

  • 代码第二次编写
import requests
from lxml import etree
import pytesseract
import ddddocrif __name__ == '__main__':session = requests.Session()# 古诗文网登录页面urlget_url = 'https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx'# 模拟登录请求头get_header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:107.0) Gecko/20100101 Firefox/107.0'}# 请求url获取textpage_text = requests.get(url=get_url, headers=get_header).text#  解析HTMLtree = etree.HTML(page_text)#  定位src属性并拼接获得最终验证码urlsrc_url = 'https://so.gushiwen.cn' + tree.xpath('//*[@id="imgCode"]/@src')[0]# 请求验证码url获取二进制src_data = session.get(url=src_url, headers=get_header).content# 将获取的的二进制数据写入到当前目录下获得code.jpgwith open('./code.jpg', 'wb') as fp:fp.write(src_data)#pytesseract识别验证码    # code = pytesseract.image_to_string('code.jpg')# print(code)#ddddocr识别验证码ocr = ddddocr.DdddOcr()text2 = ocr.classification(src_data)print('ddddorc识别出的验证码为:', text2)# 模拟登录__VIEWSTATE = tree.xpath('//*[@id="__VIEWSTATE"]/@value')[0]__VIEWSTATEGENERATOR = tree.xpath('//*[@id="__VIEWSTATEGENERATOR"]/@value')[0]login_url = 'https://so.gushiwen.cn/user/login.aspx?from=http%3a%2f%2fso.gushiwen.cn%2fuser%2fcollect.aspx'data = {'__VIEWSTATE': __VIEWSTATE,'__VIEWSTATEGENERATOR': __VIEWSTATEGENERATOR,'from': 'http://so.gushiwen.cn/user/collect.aspx','email': '','pwd': '','code': text2,'denglu': '登录',}gushiwen = session.post(url=login_url, headers=get_header, data=data).textwith open('./gushiwen.html', 'w', encoding='utf-8') as fp_h:fp_h.write(gushiwen)

pytesseract识别的准确率以及训练的成熟度不是很高 更换ddddocr之后就好多了

就是跳转到的HTML页面不好看

代码修改于2023.8.15 代码正常运行 运行结果大致正常

  • 代码第三次编写

以下代码承接模拟登录

# 收藏页面的标头
cookie = '收藏页面的cookie'
headers = {'Cookie': cookie,'Referer': 'https://so.gushiwen.cn/user/collect.aspx','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.62'}
# 主页的url
main_url = 'https://www.gushiwen.cn/'
# 收藏页的url
collect_url = 'https://so.gushiwen.cn/user/collect.aspx?type=m&id=4752846&sort=t'
# 主页的响应数据
gushiwen = session.post(url=main_url, headers=get_header, data=data).text
# #查看session内携带的cookie
# cookies_dict = requests.utils.dict_from_cookiejar(session.cookies)
# # 把cookies转化成字典。
# print("cookie:" + str(cookies_dict))
# 收藏页的相应数据
response = session.post(url=collect_url, headers=headers).text
with open('./gushiwen.html', 'w', encoding='utf-8') as fp_h:# 写入fp_h.write(response)

 打印session,发现携带的cookie内容与网页内的cookie不一致,于是手动使用cookie,此处在请求中额外携带cookie

代码修改于2023.8.31 代码正常运行 运行结果大致正常 

这篇关于模拟登录古诗文网(模拟登录,验证码识别)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:https://blog.csdn.net/mein_Augestern/article/details/132096861
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/485833

相关文章

CSS3打造的现代交互式登录界面详细实现过程

《CSS3打造的现代交互式登录界面详细实现过程》本文介绍CSS3和jQuery在登录界面设计中的应用,涵盖动画、选择器、自定义字体及盒模型技术,提升界面美观与交互性,同时优化性能和可访问性,感兴趣的朋... 目录1. css3用户登录界面设计概述1.1 用户界面设计的重要性1.2 CSS3的新特性与优势1.

Python中图片与PDF识别文本(OCR)的全面指南

《Python中图片与PDF识别文本(OCR)的全面指南》在数据爆炸时代,80%的企业数据以非结构化形式存在,其中PDF和图像是最主要的载体,本文将深入探索Python中OCR技术如何将这些数字纸张转... 目录一、OCR技术核心原理二、python图像识别四大工具库1. Pytesseract - 经典O

Python基于微信OCR引擎实现高效图片文字识别

《Python基于微信OCR引擎实现高效图片文字识别》这篇文章主要为大家详细介绍了一款基于微信OCR引擎的图片文字识别桌面应用开发全过程,可以实现从图片拖拽识别到文字提取,感兴趣的小伙伴可以跟随小编一... 目录一、项目概述1.1 开发背景1.2 技术选型1.3 核心优势二、功能详解2.1 核心功能模块2.

Java中的登录技术保姆级详细教程

《Java中的登录技术保姆级详细教程》:本文主要介绍Java中登录技术保姆级详细教程的相关资料,在Java中我们可以使用各种技术和框架来实现这些功能,文中通过代码介绍的非常详细,需要的朋友可以参考... 目录1.登录思路2.登录标记1.会话技术2.会话跟踪1.Cookie技术2.Session技术3.令牌技

Python验证码识别方式(使用pytesseract库)

《Python验证码识别方式(使用pytesseract库)》:本文主要介绍Python验证码识别方式(使用pytesseract库),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全... 目录1、安装Tesseract-OCR2、在python中使用3、本地图片识别4、结合playwrigh

Python使用pynput模拟实现键盘自动输入工具

《Python使用pynput模拟实现键盘自动输入工具》在日常办公和软件开发中,我们经常需要处理大量重复的文本输入工作,所以本文就来和大家介绍一款使用Python的PyQt5库结合pynput键盘控制... 目录概述:当自动化遇上可视化功能全景图核心功能矩阵技术栈深度效果展示使用教程四步操作指南核心代码解析

Python模拟串口通信的示例详解

《Python模拟串口通信的示例详解》pySerial是Python中用于操作串口的第三方模块,它支持Windows、Linux、OSX、BSD等多个平台,下面我们就来看看Python如何使用pySe... 目录1.win 下载虚www.chinasem.cn拟串口2、确定串口号3、配置串口4、串口通信示例5

SpringBoot后端实现小程序微信登录功能实现

《SpringBoot后端实现小程序微信登录功能实现》微信小程序登录是开发者通过微信提供的身份验证机制,获取用户唯一标识(openid)和会话密钥(session_key)的过程,这篇文章给大家介绍S... 目录SpringBoot实现微信小程序登录简介SpringBoot后端实现微信登录SpringBoo

使用Python和PaddleOCR实现图文识别的代码和步骤

《使用Python和PaddleOCR实现图文识别的代码和步骤》在当今数字化时代,图文识别技术的应用越来越广泛,如文档数字化、信息提取等,PaddleOCR是百度开源的一款强大的OCR工具包,它集成了... 目录一、引言二、环境准备2.1 安装 python2.2 安装 PaddlePaddle2.3 安装

kali linux 无法登录root的问题及解决方法

《kalilinux无法登录root的问题及解决方法》:本文主要介绍kalilinux无法登录root的问题及解决方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,... 目录kali linux 无法登录root1、问题描述1.1、本地登录root1.2、ssh远程登录root2、