python爬虫登录正方教务管理系统获取成绩数据

2023-12-13 14:48

本文主要是介绍python爬虫登录正方教务管理系统获取成绩数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本程序以四川理工学院教务管理系统为例。。。。

准备工作:1.ruquests库的使用(或者urllib也可行)

    2.正则表达式的书写

                    3.HTTP通信基础

                    4.一些解析库的使用



准备一个浏览器监视工具,这里我是用的是fiddler下载地址点击打开链接

登录官网获取到登录系统url:http://61.139.105.138/default2.aspx


这里可以知道浏览器是先请求登录页面,让后转到去获取验证码图片。

仔细分析验证码连接发现:


这个请求方式是get但包含有cookies

所以模拟登录前获取验证码时需要带上cookies否则登录会一直提示验证码错误


查看发送的请求

__VIEWSTATE可以在登录页面的脚本中捕捉到 后面的数据便是post请求需要带上的数据

最后对于网页上的验证码问题,这里选择下载验证码图片并自动打开。

下面贴上模拟登录的代码

import requests
import re
from html.parser import *
import urllib.request
import os
x=[]
state=[]
class Scraper(HTMLParser):def handle_starttag(self,tag,attrs):if tag=='img':#验证码attrs=dict(attrs)if(attrs.__contains__('id')):x.append(attrs["src"])if tag=='input':#viewstateattrs=dict(attrs)if attrs.__contains__('name'):if attrs['name']=='__VIEWSTATE':state.append(attrs['value'])webpage=requests.get(url="http://61.139.105.138/default2.aspx")
Cookie=webpage.cookies#获取网页cookies
date=webpage.text
parser=Scraper()
parser.feed(date)
headers={'User-Agent':r'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0;  TheWorld 7)',}
while True:url="http://61.139.105.138/CheckCode.aspx"#验证码所在连接pic=requests.get(url,cookies=Cookie,headers=headers)if os.path.exists(r'f://yanzheng.jpg'):os.remove(r'f://yanzheng.jpg')with open(r'f://yanzheng.jpg','wb')as f:f.write(pic.content)f.close()username=input("输入用户名: ")password=input("输入密码 ")os.startfile(r'f:yanzheng.jpg')ycode=input("输入弹出的验证码: ")payload={'__VIEWSTATE':state[0],'txtUserName':username,'TextBox2':password,'txtSecretCode':ycode,'RadioButtonList1':'%D1%A7%C9%FA','Button1':"",'lbLanguage':'','hidPdrs':'','hidsc':'',}Log_in=r"http://61.139.105.138/default2.aspx"r=requests.post(url=Log_in,data=payload,headers=headers,cookies=Cookie)#用正则算了pat=r'<title>(.*?)</title>'#获取标题的正则表达式x=re.findall(pat,r.text)if(x[0]=="欢迎使用正方教务管理系统!请登录"):print("登陆失败")albert="defer>alert\('(.*?)'\)"err=re.findall(albert,r.text)print(err[0])else:print("登陆成功")


过程中遇到需要判断登录是否成功,这里选择识别标记字符,我这边抓取了网页的标题,如果不成功标题就会是"欢迎使用正方教务管理系统!请登录"

在登录失败的情况下依然可以通过正则表达式获取登录失败信息

最后便是进入成绩查询界面,依旧先通过fiddler观察浏览器的行为:



    可以看出get请求相关信息是学号,姓名,项目代码(姓名可以在登录页面抓取)

    值得注意的是headers中必须含有referer否则会被弹出

    下面贴出相关代码:

 #抓一下名字catch='<span id="xhxm">(.*?)</span></em>'name=re.findall(catch,r.text)name=name[0]name=name[:-2]print(name)break
name=str(name).replace(r'\x','%')#扩大适用性
name=name.upper()
name=name[2:]lheaders={'User-Agent':r'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0;  TheWorld 7)','Referer':'http://61.139.105.138/xs_main.aspx?xh='+username#扩大适用性}
html=requests.get("http://61.139.105.138/xscjcx_dq.aspx?xh="+username+"&xm="+name+"&gnmkdm=N121605",cookies=Cookie,headers=lheaders)
#最后处理成绩信息
selectall=r'<td>(.*?)</td>'*17
result=re.findall(selectall,html.text)
xm=result[0]#项目分离
forma=[]
temp=''
for i in range(17):forma.append('')#17位的数据存放处理好的数据
for index in range(17):for item in result:temp=format("% -15s"%str(item[index]).strip())forma[index]+=tempfor each in forma:print(each)
input("查询结束按下任意键退出")   


这就是整个爬虫实现的过程,允许相关输入错误后再次输入


最后贴上整个项目代码:

import requests
import re
from html.parser import *
import urllib.request
import os
import csv
x=[]
state=[]
class Scraper(HTMLParser):def handle_starttag(self,tag,attrs):if tag=='img':#验证码attrs=dict(attrs)if(attrs.__contains__('id')):x.append(attrs["src"])if tag=='input':#viewstateattrs=dict(attrs)if attrs.__contains__('name'):if attrs['name']=='__VIEWSTATE':state.append(attrs['value'])webpage=requests.get(url="http://61.139.105.138/default2.aspx")
Cookie=webpage.cookies#获取网页cookies
date=webpage.text
parser=Scraper()
parser.feed(date)
headers={'User-Agent':r'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0;  TheWorld 7)',}
while True:url="http://61.139.105.138/CheckCode.aspx"#验证码所在连接pic=requests.get(url,cookies=Cookie,headers=headers)if os.path.exists(r'f://yanzheng.jpg'):os.remove(r'f://yanzheng.jpg')with open(r'f://yanzheng.jpg','wb')as f:f.write(pic.content)f.close()username=input("输入用户名: ")password=input("输入密码 ")os.startfile(r'f:yanzheng.jpg')ycode=input("输入弹出的验证码: ")payload={'__VIEWSTATE':state[0],'txtUserName':username,'TextBox2':password,'txtSecretCode':ycode,'RadioButtonList1':'%D1%A7%C9%FA','Button1':"",'lbLanguage':'','hidPdrs':'','hidsc':'',}Log_in=r"http://61.139.105.138/default2.aspx"r=requests.post(url=Log_in,data=payload,headers=headers,cookies=Cookie)#用正则算了pat=r'<title>(.*?)</title>'#获取标题的正则表达式x=re.findall(pat,r.text)if(x[0]=="欢迎使用正方教务管理系统!请登录"):print("登陆失败")else:print("登陆成功")#抓一下名字catch='<span id="xhxm">(.*?)</span></em>'name=re.findall(catch,r.text)name=name[0]name=name[:-2]print(name)break
name=str(name).replace(r'\x','%')#扩大适用性
name=name.upper()
name=name[2:]lheaders={'User-Agent':r'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0;  TheWorld 7)','Referer':'http://61.139.105.138/xs_main.aspx?xh='+username#扩大适用性}
html=requests.get("http://61.139.105.138/xscjcx_dq.aspx?xh="+username+"&xm="+name+"&gnmkdm=N121605",cookies=Cookie,headers=lheaders)
#最后处理成绩信息
selectall=r'<td>(.*?)</td>'*17
result=re.findall(selectall,html.text)
xm=result[0]#项目分离
forma=[]
csvfile=open('f://result.csv','w',newline='')
writer=csv.writer(csvfile)
temp=''
for i in range(17):forma.append('')#17位的数据存放处理好的数据
for index in range(17):for item in result:temp=format("% -15s"%str(item[index]).strip())forma[index]+=tempfor each in forma:print(each)for num,item in enumerate(result):for index,value in enumerate(item):#处理下result里面的无规则数据if value==" ":result[num][index]=''for item in result:writer.writerow(item)
csvfile.close()
input("爬虫完成,结果存在F盘result.csv文件下")



这篇关于python爬虫登录正方教务管理系统获取成绩数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/488858

相关文章

使用Java将各种数据写入Excel表格的操作示例

《使用Java将各种数据写入Excel表格的操作示例》在数据处理与管理领域,Excel凭借其强大的功能和广泛的应用,成为了数据存储与展示的重要工具,在Java开发过程中,常常需要将不同类型的数据,本文... 目录前言安装免费Java库1. 写入文本、或数值到 Excel单元格2. 写入数组到 Excel表格

Python中pywin32 常用窗口操作的实现

《Python中pywin32常用窗口操作的实现》本文主要介绍了Python中pywin32常用窗口操作的实现,pywin32主要的作用是供Python开发者快速调用WindowsAPI的一个... 目录获取窗口句柄获取最前端窗口句柄获取指定坐标处的窗口根据窗口的完整标题匹配获取句柄根据窗口的类别匹配获取句

利用Python打造一个Excel记账模板

《利用Python打造一个Excel记账模板》这篇文章主要为大家详细介绍了如何使用Python打造一个超实用的Excel记账模板,可以帮助大家高效管理财务,迈向财富自由之路,感兴趣的小伙伴快跟随小编一... 目录设置预算百分比超支标红预警记账模板功能介绍基础记账预算管理可视化分析摸鱼时间理财法碎片时间利用财

Python中的Walrus运算符分析示例详解

《Python中的Walrus运算符分析示例详解》Python中的Walrus运算符(:=)是Python3.8引入的一个新特性,允许在表达式中同时赋值和返回值,它的核心作用是减少重复计算,提升代码简... 目录1. 在循环中避免重复计算2. 在条件判断中同时赋值变量3. 在列表推导式或字典推导式中简化逻辑

python处理带有时区的日期和时间数据

《python处理带有时区的日期和时间数据》这篇文章主要为大家详细介绍了如何在Python中使用pytz库处理时区信息,包括获取当前UTC时间,转换为特定时区等,有需要的小伙伴可以参考一下... 目录时区基本信息python datetime使用timezonepandas处理时区数据知识延展时区基本信息

Python位移操作和位运算的实现示例

《Python位移操作和位运算的实现示例》本文主要介绍了Python位移操作和位运算的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1. 位移操作1.1 左移操作 (<<)1.2 右移操作 (>>)注意事项:2. 位运算2.1

Qt实现网络数据解析的方法总结

《Qt实现网络数据解析的方法总结》在Qt中解析网络数据通常涉及接收原始字节流,并将其转换为有意义的应用层数据,这篇文章为大家介绍了详细步骤和示例,感兴趣的小伙伴可以了解下... 目录1. 网络数据接收2. 缓冲区管理(处理粘包/拆包)3. 常见数据格式解析3.1 jsON解析3.2 XML解析3.3 自定义

使用Python和Pyecharts创建交互式地图

《使用Python和Pyecharts创建交互式地图》在数据可视化领域,创建交互式地图是一种强大的方式,可以使受众能够以引人入胜且信息丰富的方式探索地理数据,下面我们看看如何使用Python和Pyec... 目录简介Pyecharts 简介创建上海地图代码说明运行结果总结简介在数据可视化领域,创建交互式地

SpringMVC 通过ajax 前后端数据交互的实现方法

《SpringMVC通过ajax前后端数据交互的实现方法》:本文主要介绍SpringMVC通过ajax前后端数据交互的实现方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价... 在前端的开发过程中,经常在html页面通过AJAX进行前后端数据的交互,SpringMVC的controll

利用python实现对excel文件进行加密

《利用python实现对excel文件进行加密》由于文件内容的私密性,需要对Excel文件进行加密,保护文件以免给第三方看到,本文将以Python语言为例,和大家讲讲如何对Excel文件进行加密,感兴... 目录前言方法一:使用pywin32库(仅限Windows)方法二:使用msoffcrypto-too