CTC Loss 数学原理讲解:Connectionist Temporal Classification

本文主要是介绍CTC Loss 数学原理讲解:Connectionist Temporal Classification,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 1、CTC Loss 出现的背景
      • 例1:用于图像文本识别的CRNN网络
      • 例2:语音识别
  • 2、CTC Loss 的总体思想
  • 3、Forward-Backward 算法
    • 3.1 合法路径的约束条件
    • 3.2 Forward-Backward 算法的数学推导
  • 4、CTC 的训练(目标函数求导)
  • 5、解码算法
  • 6、CTC Loss 的优缺点

CTC Loss 是一种不需要数据对齐的,广泛用于图像文本识别和语音识别任务的损失函数。

论文:《Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks》
《连续形式的时序数据分类:用递归神经网络标记非分段序列数据》

论文发表时间:ICML 2006

注:这篇博客来源于本人组会汇报时的文档,因此很多内容是直接从文档中截图的。

1、CTC Loss 出现的背景

到目前为止,还不可能将RNN直接应用于序列数据的标记。问题在于标准神经网络的目标函数是为训练序列中的每个点分别定义的,因此RNN只能训练一系列独立的标签分类。这意味着训练的序列数据必须被预分段并标记。

标记未分割序列数据是现实世界序列学习中普遍存在的问题。这在感知任务中尤其常见,如图像文本识别(OCR)、姿势识别、语音识别(ASR)。

在这些领域中,所面临的一个问题是神经网络的输出与ground truth的长度不一致,导致loss难以计算。

例1:用于图像文本识别的CRNN网络

在这里插入图片描述
考虑一种非常简单的方法,通过将图片划分为几个竖直方向的图像,分别识别每列小图片中的文字,从而实现整体文本的识别。则每一列输出都需要对应一个字符元素。用 - 表示blank(空白),预测值(-s-t-aatt-e-)和ground truth(state)的长度不一致,采用常规的损失函数(cross entropy、MSE等)计算时需要先进行对齐才能计算损失。

进行对齐就需要在训练之前的数据标注阶段在训练集图片中标记出每个字符的真实文本和在图片中的位置。但在实际情况中,标记这种对齐样本非常困难,其工作量非常大。并且由于每张样本的字符数量不同,字体样式不同,字体大小不同,导致每列输出并不一定能与每个字符一一对应。

例2:语音识别

在这里插入图片描述
上图中的语音是HELLO。有人说话快,有人说话慢。那么如何进行语音帧对齐一直是困扰语音识别领域的巨大难题。

除了数据标注的困难导致难以对齐外,就算对齐了也存在many to one的问题。那么什么是many to one的问题呢?解码器的规则是将连续的相同字符合并,以及去掉blank。那么-HEEE-LL-LL-OOOOOOOO-(Mr.Slow)和-HE-L-LOO-(Mr.Fast)都可以解码为HELLO,与ground truth一致。也就是说就算我们将Mr.Slow的label标注为-HE-L-LOO------------,尽管这个label显然是错误的,但通过网络训练,Mr.Slow的网络预测值会非常接近label,如预测值是-H–EE-L-LOO----------。尽管该预测值与ground truth差异非常大,但是该预测值依然可以解码为HELLO。显然这个情况是我们不希望看到的,也非常不利于网络的训练。

由于连续序列数据的对齐难题,学者提出了一种对不需要对齐的Loss计算方法:CTC Loss。

CTC Loss被广泛应用于文本识别和语音识别中,接下来根据语音识别的例子介绍CTC Loss。

2、CTC Loss 的总体思想

首先要明确CTC Loss的计算对象是神经网络经过softmax归一化之后的输出矩阵和ground truth。

CTC Loss 不要求输出矩阵和ground truth的大小相同。输出矩阵的维度为N×T,其中N是类别数(在英文的语音识别中N=27,即26个英文字母和blank),T是语音长度(T个语音帧)。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3、Forward-Backward 算法

3.1 合法路径的约束条件

以l=apple为例,按照时间序列(T=8)展开。B(–ap-ple)=aab对应的路径为:

在这里插入图片描述
为了让所有的路径在图中都有唯一、合法的表示,节点转换有如下约束:

在这里插入图片描述

这些约束规则导致合法路径的数量大大减少。根据以上约束规则,所有映射为l=apple的合法路径为:

在这里插入图片描述

3.2 Forward-Backward 算法的数学推导

在这里插入图片描述
前向和反向过程的计算示意图如下:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
示例:

在这里插入图片描述
在这里插入图片描述

有论文证明,尽管可以通过并不复杂的递归运算得到p(l│x),但这种运算无法避免数值下溢的问题。因此需要考虑其他方法进行计算。

4、CTC 的训练(目标函数求导)

在这里插入图片描述
公式(13)是forward-backward算法的关键,以T=6,l=ab为例解释(13):

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
以单层LSTM作为RNN网络,RNN-CTC模型的总体结构为:

在这里插入图片描述

5、解码算法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

6、CTC Loss 的优缺点

CTC最大的优点是不需要数据对齐。

CTC的缺点来源于三个假设或约束:

(1)条件独立:假设每个时间片都是相互独立的,但在OCR或者语音识别中,相邻几个时间片中往往包含着高度相关的语义信息,它们并非相互独立的。

(2)单调对齐:CTC要求输入与输出之间的对齐是单向的,在OCR和语音识别中,这种约束是成立的。但是在一些场景中(如机器翻译),这个约束并不成立。

(3)CTC要求是输入序列的长度不小于标签数据的长度,反之便无法使用。

这篇关于CTC Loss 数学原理讲解:Connectionist Temporal Classification的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/542165

相关文章

Unity新手入门学习殿堂级知识详细讲解(图文)

《Unity新手入门学习殿堂级知识详细讲解(图文)》Unity是一款跨平台游戏引擎,支持2D/3D及VR/AR开发,核心功能模块包括图形、音频、物理等,通过可视化编辑器与脚本扩展实现开发,项目结构含A... 目录入门概述什么是 UnityUnity引擎基础认知编辑器核心操作Unity 编辑器项目模式分类工程

MySQL连表查询之笛卡尔积查询的详细过程讲解

《MySQL连表查询之笛卡尔积查询的详细过程讲解》在使用MySQL或任何关系型数据库进行多表查询时,如果连接条件设置不当,就可能发生所谓的笛卡尔积现象,:本文主要介绍MySQL连表查询之笛卡尔积查... 目录一、笛卡尔积的数学本质二、mysql中的实现机制1. 显式语法2. 隐式语法3. 执行原理(以Nes

RabbitMQ消费端单线程与多线程案例讲解

《RabbitMQ消费端单线程与多线程案例讲解》文章解析RabbitMQ消费端单线程与多线程处理机制,说明concurrency控制消费者数量,max-concurrency控制最大线程数,prefe... 目录 一、基础概念详细解释:举个例子:✅ 单消费者 + 单线程消费❌ 单消费者 + 多线程消费❌ 多

从入门到进阶讲解Python自动化Playwright实战指南

《从入门到进阶讲解Python自动化Playwright实战指南》Playwright是针对Python语言的纯自动化工具,它可以通过单个API自动执行Chromium,Firefox和WebKit... 目录Playwright 简介核心优势安装步骤观点与案例结合Playwright 核心功能从零开始学习

嵌入式数据库SQLite 3配置使用讲解

《嵌入式数据库SQLite3配置使用讲解》本文强调嵌入式项目中SQLite3数据库的重要性,因其零配置、轻量级、跨平台及事务处理特性,可保障数据溯源与责任明确,详细讲解安装配置、基础语法及SQLit... 目录0、惨痛教训1、SQLite3环境配置(1)、下载安装SQLite库(2)、解压下载的文件(3)、

Java进程CPU使用率过高排查步骤详细讲解

《Java进程CPU使用率过高排查步骤详细讲解》:本文主要介绍Java进程CPU使用率过高排查的相关资料,针对Java进程CPU使用率高的问题,我们可以遵循以下步骤进行排查和优化,文中通过代码介绍... 目录前言一、初步定位问题1.1 确认进程状态1.2 确定Java进程ID1.3 快速生成线程堆栈二、分析

javascript fetch 用法讲解

《javascriptfetch用法讲解》fetch是一个现代化的JavaScriptAPI,用于发送网络请求并获取资源,它是浏览器提供的全局方法,可以替代传统的XMLHttpRequest,这篇... 目录1. 基本语法1.1 语法1.2 示例:简单 GET 请求2. Response 对象3. 配置请求

Java Stream.reduce()方法操作实际案例讲解

《JavaStream.reduce()方法操作实际案例讲解》reduce是JavaStreamAPI中的一个核心操作,用于将流中的元素组合起来产生单个结果,:本文主要介绍JavaStream.... 目录一、reduce的基本概念1. 什么是reduce操作2. reduce方法的三种形式二、reduce

CSS引入方式和选择符的讲解和运用小结

《CSS引入方式和选择符的讲解和运用小结》CSS即层叠样式表,是一种用于描述网页文档(如HTML或XML)外观和格式的样式表语言,它主要用于将网页内容的呈现(外观)和结构(内容)分离,从而实现... 目录一、前言二、css 是什么三、CSS 引入方式1、行内样式2、内部样式表3、链入外部样式表四、CSS 选

Python Transformers库(NLP处理库)案例代码讲解

《PythonTransformers库(NLP处理库)案例代码讲解》本文介绍transformers库的全面讲解,包含基础知识、高级用法、案例代码及学习路径,内容经过组织,适合不同阶段的学习者,对... 目录一、基础知识1. Transformers 库简介2. 安装与环境配置3. 快速上手示例二、核心模