【项目】基于YOLOv8和RotNet实现圆形滑块验证码(拼图)自动识别(通过识别中间圆形的角度实现)

本文主要是介绍【项目】基于YOLOv8和RotNet实现圆形滑块验证码(拼图)自动识别(通过识别中间圆形的角度实现),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

@TOC

一、引言

1.1 实现目标

要达到的效果是使用算法预测中间圆形的角度,返回给服务器,实现自动完成验证码的问题。要实现的内容如下图所示。
在这里插入图片描述

在这里插入图片描述

1.2 实现思路

思路1(效果较差):以RotNet要实现的验证码识别为灵感,先利用YOLO算法检测出中间圆,再把圆形图像输入给RotNet,让其预测角度,进而返回给服务器。

但是实际应用的过程中,笔者发现这种算法逻辑执行效果较差。
因为RotNet要完成的是独立的圆预测角度,实现的是如下图所示的圆的角度预测,单独的圆就已经是独立出来的一张图像,因此直接输入进网络,预测效果会很好
在这里插入图片描述
但是我们要实现的相当于中间圆和外部图形的拼图操作,而不仅仅是简单的预测角度,所以直接把中间的圆拿出来进行角度预测,显然脱离了背景,而且有些题把中间独立的圆抠出来之后,很难对其角度进行定义,所以效果很差
在这里插入图片描述

思路2:有了思路1的教训,我们要做的第一步就是把外部的背景图像引入进来进行训练

二、数据集制备

网络上没有此类开源的数据集,因此笔者自行进行了制备,具体分为以下两种:

  1. 一种是以下这种圆完全归位的一整张图,都是用美工P图的方法进行制备的在这里插入图片描述
  2. 第二种是直接截取的这种没有P图过的没有修正过的图像
    在这里插入图片描述
    此类数据集制备完成之后再用笔者编写的脚本使其归位,部分代码如下
    大致思路为:
  • 先使用YOLO算法检测出图像中的圆
  • 再利用算法使用a、d两个按键进行角度偏转,使用z、c两个按键进行切图
  • 观察到图像回正之后,按s键保存到指定文件夹下

效果如下:

3eb50dabc910b6

import math
import numpy as np
import cv2
from ultralytics import YOLO
import osyolo_model = YOLO(r"D:\kb\rotate-captcha-crack-master_my\yolo.pt")def code_dect(folder_path, output_path):files = []current_index = 0while True:if not files:print("文件夹中没有图像文件。")breakimg_path = os.path.join(folder_path, files[current_index])img = cv2.imread(img_path)imgDoub = img# 检测出的boxcenter_box = []results = yolo_model.predict(img, stream=True)boxAll = []for r in results:boxes = r.boxesfor box in boxes:x1, y1, x2, y2 = box.xyxy[0]  # 获取边界框的坐标x1, y1, x2, y2 = int(x1), int(y1), int(x2), int(y2)w, h = x2 - x1, y2 - y1bbox = (x1, y1, w, h)boxAll.append(bbox)# 计算图像中心坐标width, height = img.shape[0], img.shape[1]image_center_x = width / 2image_center_y = height / 2# 找出距离图像中心最近的矩形框min_distance = float('inf')for rectangle in boxAll:center_x, center_y = calculate_center(rectangle)distance = math.sqrt((center_x - image_center_x) ** 2 + (center_y - image_center_y) ** 2)if distance < min_distance:min_distance = distancecenter_box = rectangleif center_box == []:print(f"没有检测到目标:{img_path}")else:# 创建与图像相同大小的黑色背景mask = np.zeros_like(imgDoub[:, :, 0])# 定义圆的外接矩形坐标x, y, w, h = center_box# 在掩码上绘制白色的圆形cv2.circle(mask, (x + w // 2, y + h // 2), min(w, h) // 2, (255, 255, 255), -1)# 将掩码应用到白色背景上,保留圆形区域onlyCircle = cv2.bitwise_and(imgDoub, imgDoub, mask=mask)mask2 = np.zeros_like(img, dtype=np.uint8)# 在掩码上绘制圆形区域cv2.circle(mask2, (x + w // 2, y + h // 2), min(w, h) // 2, (255, 255, 255), -1)rotate = Truereverse = Falseangle = 0while rotate:# 获取图像的中心点坐标height, width = onlyCircle.shape[:2]center = (width // 2, height // 2)# 定义旋转矩阵rotation_matrix = cv2.getRotationMatrix2D(center, angle, 1.0)# 进行旋转变换rotated_image = cv2.warpAffine(onlyCircle, rotation_matrix, (width, height))# 将圆形区域置为0imgDoub[mask2 != 0] = 0result = rotated_image + imgDoubcv2.imshow("result", result)# 添加按键监听key = cv2.waitKey(1)# z、c分别是切换上一张或者下一张图if key == ord('z'):current_index = (current_index - 1) % len(files)break# 按下 'c' 键逆时针旋转elif key == ord('c'):current_index = (current_index + 1) % len(files)break# 按下 's' 键保存图像elif key == ord('s'):output_img_path = os.path.join(output_path, files[current_index])cv2.imwrite(output_img_path, result)print(f"图像已保存到:{output_img_path}")if key == ord('a'):angle += 1# 按下 'd' 键逆时针旋转elif key == ord('d'):angle -= 1elif key == ord('q'):angle += 10elif key == ord('e'):angle -= 10if __name__ == '__main__':folder_path = input("请输入文件夹路径:")output_path = input("请输入输出路径:")code_dect(folder_path, output_path)

三、算法逻辑

1、生成样本

使用RotNet作为本算法的预测核心预测算法,把我们上文中生成的回正数据首先利用编写的脚本给每张图像生成360张不同角度的图像,文件名的后缀代表这张图象真实的偏转角度。
,

2、训练算法

把生成的所有图像输入进改进的RotNet进行训练,由于这种类型的样本学习很容易出现过拟合的现象,因此笔者在网络中加了几个DropOut操作。

3、算法逻辑

我们并没有简单把单张图像输入进算法来进行角度预测,这样360个类别误差太大效果会比较差,在应用的时候我们也是先把中间的圆形图像抠出来,然后对其使用算法旋转360度,把360张图像都进行角度预测,最后取出0到3度和357到359度的图像返回它的序列值,即真实的角度值。如果没有这些范围之内的图像,那就返回-1,切下一张图像,防止错误次数太多。代码如下所示:

import math
import numpy as np
import torch
from PIL import Image
from rotate_captcha_crack.common import device
from rotate_captcha_crack.model import RotNetR
from rotate_captcha_crack.utils import process_captcha
import cv2
from ultralytics import YOLOyolo_model = YOLO(r"D:\chenjie\rotate-captcha-crack-master_my\yolo.pt")def calculate_center(rectangle):x, y, w, h = rectanglecenter_x = x + w / 2center_y = y + h / 2return center_x, center_ymodel = RotNetR(train=False, cls_num=360)
model_path = r"D:\chenjie\rotate-captcha-crack-master_my\models\RotNetR\240316_17_14_23_006\best.pth"model.load_state_dict(torch.load(str(model_path)))
model = model.to(device=device)
model.eval()
def predictAngle(img):img = Image.fromarray(img)img_ts = process_captcha(img)img_ts = img_ts.to(device=device)predict = model.predict(img_ts)return predictdef code_dect(img):imgDoub = img# 检测出的boxcenter_box = []results = yolo_model.predict(img, stream=True)boxAll = []for r in results:boxes = r.boxesfor box in boxes:x1, y1, x2, y2 = box.xyxy[0]  # Gives coordinates to draw bounding boxx1, y1, x2, y2 = int(x1), int(y1), int(x2), int(y2)w, h = x2 - x1, y2 - y1bbox = (x1, y1, w, h)boxAll.append(bbox)# 计算图像中心坐标width, height = img.shape[0], img.shape[1]image_center_x = width / 2image_center_y = height / 2# 找出距离图像中心最近的矩形框min_distance = float('inf')for rectangle in boxAll:center_x, center_y = calculate_center(rectangle)distance = math.sqrt((center_x - image_center_x) ** 2 + (center_y - image_center_y) ** 2)if distance < min_distance:min_distance = distancecenter_box = rectangleif center_box==[]:print("kong")else:# 把圆区域搞出来# 创建与图像相同大小的黑色背景mask = np.zeros_like(imgDoub[:, :, 0])# 定义圆的外接矩形坐标x, y, w, h = center_box# 在掩码上绘制白色的圆形cv2.circle(mask, (x + w // 2, y + h // 2), min(w, h) // 2, (255, 255, 255), -1)# 将掩码应用到白色背景上,保留圆形区域onlyCircle = cv2.bitwise_and(imgDoub, imgDoub, mask=mask)# 显示结果图像# cv2.imshow('Only Circle', onlyCircle)# cv2.imshow('imgDoub', imgDoub)# cv2.waitKey(0)mask2 = np.zeros_like(img, dtype=np.uint8)# 在掩码上绘制圆形区域cv2.circle(mask2, (x + w // 2, y + h // 2), min(w, h) // 2, (255, 255, 255), -1)angles = []for angle in range(0, 360):# 获取图像的中心点坐标height, width = onlyCircle.shape[:2]center = (width // 2, height // 2)# 定义旋转矩阵rotation_matrix = cv2.getRotationMatrix2D(center, angle, 1.0)# 进行旋转变换rotated_image = cv2.warpAffine(onlyCircle, rotation_matrix, (width, height))# 将圆形区域置为0imgDoub[mask2 != 0] = 0result = rotated_image+imgDoubpredict = predictAngle(result)# cv2.imshow("sdf",result)# print(predict)# cv2.waitKey(10)angles.append(predict)minAngle = min(angles)maxAngle = max(angles)minAngleIdx = angles.index(min(angles))maxAngleIdx = angles.index(max(angles))finalAngleIdx = -1if maxAngle>356:finalAngleIdx = maxAngleIdxelif minAngle<4:finalAngleIdx = minAngleIdxprint(finalAngleIdx)return finalAngleIdxif __name__ == '__main__':# 测试整体img = cv2.imread("D:\chenjie\\rotate-captcha-crack-master_my\images\e42c0939dc3bde88657a88ac07d59d6.png")code_dect(img)

最后可以达到80-90%的通过率,效果已经很不错了
演示效果如下:

ab7c1b94c3bc27b8

三、代码、数据集获取

q:1831255794(有偿)制备数据集和写算法耗费了大量时间精力,因此收取点小费希望理解!!!
可接项目,大作业,毕设等 
价格略贵,技术够硬,认真负责,保证质量

这篇关于【项目】基于YOLOv8和RotNet实现圆形滑块验证码(拼图)自动识别(通过识别中间圆形的角度实现)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/834283

相关文章

Qt使用QSqlDatabase连接MySQL实现增删改查功能

《Qt使用QSqlDatabase连接MySQL实现增删改查功能》这篇文章主要为大家详细介绍了Qt如何使用QSqlDatabase连接MySQL实现增删改查功能,文中的示例代码讲解详细,感兴趣的小伙伴... 目录一、创建数据表二、连接mysql数据库三、封装成一个完整的轻量级 ORM 风格类3.1 表结构

基于Python实现一个图片拆分工具

《基于Python实现一个图片拆分工具》这篇文章主要为大家详细介绍了如何基于Python实现一个图片拆分工具,可以根据需要的行数和列数进行拆分,感兴趣的小伙伴可以跟随小编一起学习一下... 简单介绍先自己选择输入的图片,默认是输出到项目文件夹中,可以自己选择其他的文件夹,选择需要拆分的行数和列数,可以通过

Python中将嵌套列表扁平化的多种实现方法

《Python中将嵌套列表扁平化的多种实现方法》在Python编程中,我们常常会遇到需要将嵌套列表(即列表中包含列表)转换为一个一维的扁平列表的需求,本文将给大家介绍了多种实现这一目标的方法,需要的朋... 目录python中将嵌套列表扁平化的方法技术背景实现步骤1. 使用嵌套列表推导式2. 使用itert

Python使用pip工具实现包自动更新的多种方法

《Python使用pip工具实现包自动更新的多种方法》本文深入探讨了使用Python的pip工具实现包自动更新的各种方法和技术,我们将从基础概念开始,逐步介绍手动更新方法、自动化脚本编写、结合CI/C... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

在Linux中改变echo输出颜色的实现方法

《在Linux中改变echo输出颜色的实现方法》在Linux系统的命令行环境下,为了使输出信息更加清晰、突出,便于用户快速识别和区分不同类型的信息,常常需要改变echo命令的输出颜色,所以本文给大家介... 目python录在linux中改变echo输出颜色的方法技术背景实现步骤使用ANSI转义码使用tpu

Python使用python-can实现合并BLF文件

《Python使用python-can实现合并BLF文件》python-can库是Python生态中专注于CAN总线通信与数据处理的强大工具,本文将使用python-can为BLF文件合并提供高效灵活... 目录一、python-can 库:CAN 数据处理的利器二、BLF 文件合并核心代码解析1. 基础合

Python使用OpenCV实现获取视频时长的小工具

《Python使用OpenCV实现获取视频时长的小工具》在处理视频数据时,获取视频的时长是一项常见且基础的需求,本文将详细介绍如何使用Python和OpenCV获取视频时长,并对每一行代码进行深入解析... 目录一、代码实现二、代码解析1. 导入 OpenCV 库2. 定义获取视频时长的函数3. 打开视频文

golang版本升级如何实现

《golang版本升级如何实现》:本文主要介绍golang版本升级如何实现问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录golanwww.chinasem.cng版本升级linux上golang版本升级删除golang旧版本安装golang最新版本总结gola

SpringBoot中SM2公钥加密、私钥解密的实现示例详解

《SpringBoot中SM2公钥加密、私钥解密的实现示例详解》本文介绍了如何在SpringBoot项目中实现SM2公钥加密和私钥解密的功能,通过使用Hutool库和BouncyCastle依赖,简化... 目录一、前言1、加密信息(示例)2、加密结果(示例)二、实现代码1、yml文件配置2、创建SM2工具

Mysql实现范围分区表(新增、删除、重组、查看)

《Mysql实现范围分区表(新增、删除、重组、查看)》MySQL分区表的四种类型(范围、哈希、列表、键值),主要介绍了范围分区的创建、查询、添加、删除及重组织操作,具有一定的参考价值,感兴趣的可以了解... 目录一、mysql分区表分类二、范围分区(Range Partitioning1、新建分区表:2、分