IncepText——自然场景中文本检测论文阅读

2024-06-13 09:48

文章标签 检测场景阅读论文自然文本 inceptext

本文主要是介绍IncepText——自然场景中文本检测论文阅读，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

摘要
介绍
相关工作
提出的方法
- 3.1 overview
- 3.2 Inception-Text
- 3.3 deformable PSPOI Pooling
- 3.4 标签和损失函数
实验

摘要

介绍

文本检测的难点是有多种变化的场景：如街景，邮局，室内等，还有各种各样的前景文字和背景物体，各种光亮、模糊和方向。

文字检测算法的发展

传统特征方法：MSER(2010)，FASText(2015)
基于CNN 的方法
- CTPN（2016）RRPN（2017）都是基于Faster rcnn
- EAST，DDR，直接回归的方法
  本文主要采用FCIS（2016）的实例分割的思想，

创新点

设计了一个Inception-Text 来处理文本的多尺度
在每个分支的最后添加了一个deformable卷积层 来处理多方向问题
用deformable PSROI pooling替换了FCIS中的PSROI pooling，实验结果显示，其在分类效果上更好。

注意： 在ICDAR2015, RCTW-17 and MSRA-TD500数据集上都达到了state-of-the-art，而且没用额外的数据

相关工作

提出的方法

3.1 overview

在这里插入图片描述
以FCIS为基础用Inception-Text和deformable PSROI pooling做了拓展
以ResNet-50为特征提取主网络
为了检测小文本，需要考虑浅层的特征。于是resnet4和resnet5上采样2倍和resnet3相加融合，然后接inception-Text模块。
再用 deformable PSROI 替换PSROI pooling layer

测试时
利用masks和分类分数得到文本区域，然后做非极大值抑制。
针对每个未被抑制的box，通过iou>0.5找到其相似boxes，在做一起做一个融合，用分类的分数做权重。
最后用最小区域生成算法，得到文字区域 （opencv中好像有函数）

3.2 Inception-Text

在这里插入图片描述
主要在Inception模块上进行的修改

1×1 conv进行降维
n×n conv变成n×1和1×nconv
每个分支加上了deformable conv
向Inception-ResNet V2一样，使用了1×1的shortcut层

说明deformable卷积优势
在场景文本检测中，任意文本方向是最具挑战性的问题之一，可变形卷积允许采样网格自由变形，而不是标准卷积中的规则采样网格。这种变形受到输入特征的制约，因此当输入文本旋转时，接受域就会进行调整
在这里插入图片描述

3.3 deformable PSPOI Pooling

PSROI池(Dai et al.， 2016)是常规ROI池的一种变体，它在位置敏感的评分地图上运行，没有下面的加权层。位置敏感属性为分类和对象位置编码有用的空间信息。
在这里插入图片描述
没细看

3.4 标签和损失函数

在这里插入图片描述
四边形中的都是正样本，外的就是负样本
回归任务的目标是虚线的矩形，分割任务的目标是灰色的掩码。
哦，懂了，应该是采用的Faster rcnn two stage的方案，RPN部分分类和回归定位到虚线的矩形框，RCNN部分再是灰色的掩码和虚线的矩形框部分。瞎猜的

五个部分的loss
在这里插入图片描述

实验

在这里插入图片描述
比EAST高了很多，值得复现。

这篇关于IncepText——自然场景中文本检测论文阅读的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1056961。 23002807@qq.com

相关文章

vue监听属性watch的用法及使用场景详解

vue监听属性watch的用法及使用场景详解

《vue监听属性watch的用法及使用场景详解》watch是vue中常用的监听器,它主要用于侦听数据的变化,在数据发生变化的时候执行一些操作,：本文主要介绍vue监听属性watch的用法及使用场景... 目录1. 监听属性 watch2. 常规用法3. 监听对象和route变化4. 使用场景附Watch 的

阅读更多...

C#自动化实现检测并删除PDF文件中的空白页面

C#自动化实现检测并删除PDF文件中的空白页面

《C#自动化实现检测并删除PDF文件中的空白页面》PDF文档在日常工作和生活中扮演着重要的角色,本文将深入探讨如何使用C#编程语言,结合强大的PDF处理库,自动化地检测并删除PDF文件中的空白页面,感... 目录理解PDF空白页的定义与挑战引入Spire.PDF for .NET库核心实现：检测并删除空白页

阅读更多...

C++中处理文本数据char与string的终极对比指南

C++中处理文本数据char与string的终极对比指南

《C++中处理文本数据char与string的终极对比指南》在C++编程中char和string是两种用于处理字符数据的类型,但它们在使用方式和功能上有显著的不同,：本文主要介绍C++中处理文本数... 目录1. 基本定义与本质2. 内存管理3. 操作与功能4. 性能特点5. 使用场景6. 相互转换核心区别

阅读更多...

Java 缓存框架 Caffeine 应用场景解析

Java 缓存框架 Caffeine 应用场景解析

《Java缓存框架Caffeine应用场景解析》文章介绍Caffeine作为高性能Java本地缓存框架,基于W-TinyLFU算法,支持异步加载、灵活过期策略、内存安全机制及统计监控,重点解析其... 目录一、Caffeine 简介1. 框架概述1.1 Caffeine的核心优势二、Caffeine 基础2

阅读更多...

防止Linux rm命令误操作的多场景防护方案与实践

防止Linux rm命令误操作的多场景防护方案与实践

《防止Linuxrm命令误操作的多场景防护方案与实践》在Linux系统中,rm命令是删除文件和目录的高效工具,但一旦误操作,如执行rm-rf/或rm-rf/*,极易导致系统数据灾难,本文针对不同场景... 目录引言理解 rm 命令及误操作风险rm 命令基础常见误操作案例防护方案使用 rm编程别名及安全删除

阅读更多...

Java实现在Word文档中添加文本水印和图片水印的操作指南

Java实现在Word文档中添加文本水印和图片水印的操作指南

《Java实现在Word文档中添加文本水印和图片水印的操作指南》在当今数字时代,文档的自动化处理与安全防护变得尤为重要,无论是为了保护版权、推广品牌,还是为了在文档中加入特定的标识,为Word文档添加... 目录引言Spire.Doc for Java：高效Word文档处理的利器代码实战：使用Java为Wo

阅读更多...

Python文本相似度计算的方法大全

Python文本相似度计算的方法大全

《Python文本相似度计算的方法大全》文本相似度是指两个文本在内容、结构或语义上的相近程度,通常用0到1之间的数值表示,0表示完全不同,1表示完全相同,本文将深入解析多种文本相似度计算方法,帮助您选... 目录前言什么是文本相似度？1. Levenshtein 距离（编辑距离）核心公式实现示例2. Jac

阅读更多...

Spring Security 前后端分离场景下的会话并发管理

Spring Security 前后端分离场景下的会话并发管理

《SpringSecurity前后端分离场景下的会话并发管理》本文介绍了在前后端分离架构下实现SpringSecurity会话并发管理的问题,传统Web开发中只需简单配置sessionManage... 目录背景分析传统 web 开发中的 sessionManagement 入口ConcurrentSess

阅读更多...

Python脚本轻松实现检测麦克风功能

Python脚本轻松实现检测麦克风功能

《Python脚本轻松实现检测麦克风功能》在进行音频处理或开发需要使用麦克风的应用程序时,确保麦克风功能正常是非常重要的,本文将介绍一个简单的Python脚本,能够帮助我们检测本地麦克风的功能,需要的... 目录轻松检测麦克风功能脚本介绍一、python环境准备二、代码解析三、使用方法四、知识扩展轻松检测麦

阅读更多...

Python中高级文本模式匹配与查找技术指南

Python中高级文本模式匹配与查找技术指南

《Python中高级文本模式匹配与查找技术指南》文本处理是编程世界的永恒主题,而模式匹配则是文本处理的基石,本文将深度剖析PythonCookbook中的核心匹配技术,并结合实际工程案例展示其应用,希... 目录引言一、基础工具：字符串方法与序列匹配二、正则表达式：模式匹配的瑞士军刀2.1 re模块核心AP

阅读更多...