TensorFlow使用之tf.layers.batch_normalization函数详解

2024-03-28 12:58

本文主要是介绍TensorFlow使用之tf.layers.batch_normalization函数详解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、写在前面

这是我的处女作,其实想写写自己的博客有一段时间了,主要也是为了记录自己所学到的新知识点,以后可以再来回顾一下,另则加深印象。由于最近在准备做OCR识别的内容,后来遇到了tf.layers.batch_normalization()这个函数,经过多方的学习网上大佬们的文章之后,在此以最简单的方式来说说这个函数,并把自己学习的过程走过的弯路在此记下,希望有缘人能够看到,互相交流。

2、标准化

我看了很多其他的博客文章,谈及这个API的时候有的称之为批归一化,也有的称之为批标准化,我个人的观点是批标准化,主要原因是因为这个API在对数据进行处理时用到的公式,这个公式在后文会给出来,其次也是因为normalization这个单词的翻译也是标准化(原谅我这么肤浅),对于为什么对数据进行标准化处理之后一般都能够得到比较好的效果呢,个人认为是因为目前的机器学习一个基本前提假设都是数据独立同分布的,而标准化过程就是将经过卷积池化等一系列操作之后的数据特征仍然服从正态分布,从而能够取得一定的效果,顺便提一下标准化是对未激活的特征进行处理的,也就是说在模型构建的时候,在标准化层之前的卷积是不能使用激活函数的,激活函数要单独放在标准化层之后,至于为什么,我在其他文章也没有看到比较理想的答案,个人的理解是因为标准化层的存在是因为我们想要得到数据在一系列变换之后服从什么分布,自然不能对数据特征进行非线性变换,不然就不能得到正确的数据分布情况了。

3、TensorFlow中的标准化公式

网上很多文章写了关于标准化的公式,结果都不满意,因为对于理解tf.layers.batch_normalization这个API帮助不是很大,或者说准确的来说在TensorFlow中用到的标准化公式其实应该是这个公式,这个公式还是我在一个公众号里无意间看到的。

其中µ、v为批量数据的均值和方差,ɛ为防止分母出现零所增加的变量,γ和β是缩放(scale)、偏移(offset)系数,这个公式对于搞懂这个API参数帮助很大,至于为什么有γ和β其实很好理解,因为数据进过模型的特征提取过后我们就不能知道数据服从什么分布了,所以需要学习这些参数来确定特征提取之后的数据分布情况。

4、滑动平均(移动平均)

这篇文章说的是批标准化,为啥和滑动平均扯上关系了呢,是因为在上面的公式里面有µ、v参数,在模型训练阶段很自然的我们能够得到当前批次的µ、v值,但是对于测试和预测的时候就不行了,所以我们需要用到滑动平均值,具体的大家可以去看看这篇博客滑动平均,我们先记下滑动平均的公式
在这里插入图片描述
至于在tensorflow模型当中是如何计算的,我会在后文提及,因为我发现关于具体计算过程并没有相关文章介绍,不知道是不是这个问题太简单了,大家都选择跳过了呢,反正我是捣鼓了几个小时才搞明白,希望对有和我一样的朋友有所帮助。

5、函数的部分参数解释

inputs:上一层的输出,批标准化的输入,一般是四维的tensor(B,H,W,C),这里就不多说了,应该都知道。
axis:默认值是-1,也就是说默认的是最后一个维度,这个参数的意思是批标准化处理的维度是以最后一个维度进行的,也就是channel,当然你也可以改(万一有奇迹呢,AI有时候就是不按常理出牌)
momentum:默认是0.99,这个参数就是滑动平均的β值,当然了你也可以修改
epsilon:默认是1e-3,呐,这个就是标准化公式里面的ɛ参数,之前网上很多文章给出的公式并没有ɛ,所以导致我一直不明白这个是啥。
center:默认True,也就是是否使用标准化公式里面的β参数,默认肯定是要用的,不用的话,那就毫无意义了。
scale:默认True,也就是是否使用标准化公式里面的γ参数,同样需要使用。
beta_initializer:默认init_ops.zeros_initializer(),β参数的初始化,也就是默认初始化全为0。
gamma_initializer:默认init_ops.ones_initializer(),γ参数的初始化,也就是默认初始化全为1。
moving_mean_initializer:默认init_ops.zeros_initializer(),就是计算均值的滑动平均值时的初始化值,明白了滑动平均的计算方法后自然明白了。
moving_variance_initializer:默认init_ops.ones_initializer(),计算方差时的滑动平均值时的初始化值。
beta_regularizer:β权重正则化操作,也就是一般所说的正则化。
gamma_regularizer:γ权重正则化操作。
beta_constraint:现在还不知道是做啥用的,应该是一个函数之类的东东。
gamma_constraint:上同,不过不影响我们使用这个API
training:默认为False,是否是训练阶段,这个参数很关键,不然很坑人。
trainable:默认为True,这个我觉得就不要改了,没必要给自己找麻烦,就是把我们标准化公式里面的参数添加到GraphKeys.TRAINABLE_VARIABLES这个集合里面去,因为只有添加进去了,参数才能更新,毕竟γ和β是需要学习的参数。
后面还有一些参数我就不介绍了,和renorm相关的参数,我也没有去看那篇论文,有需要深入学习的朋友可以去看看论文。Batch Renormalization其实真正用到的参数也就那么两三个,但是了解更加清楚一些也很必要。

6、批标准化处理中的计算过程

我以图像数据为例,由于第一次写博客,也找不到好图,我就直接文字描述了,过程毕竟也不复杂。
假设我们现在有这样的数据格式(B,H,W,C)对应为(10,5,5,3)的数据,在经过卷积,池化等一系列操作之后,我们得到的特征是(10,3,3,64),也就是我们得到的是批次大小为10,map大小为33,通道数为64的features map,因为我们批标准化的维度是以channel进行的,我们可以结合传统机器学习的数据格式进行分析,是不是相当于我们现在有10条样本数据,而每一个样本数据的特征维度大小是64,而每一个特征值是33=9的向量,然后结合我们的标准化公式和滑动平均的公式,应该能够想明白计算过程了,原谅我也不知道咋说清楚。当然这是我的个人理解,如有不对的地方望指出。

7、使用过程中会遇到的坑

这里网上有很多相关文章,我就发一个链接为例吧,实在是不想写了,注意事项
第一次写,就写到这里吧,想写的好多呀,因为每次都发现自己当时搞明白的问题,过段时间又忘了,又要去查资料太麻烦了,以后希望能够写的越来越好吧。

这篇关于TensorFlow使用之tf.layers.batch_normalization函数详解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/855685

相关文章

Java Spring 中 @PostConstruct 注解使用原理及常见场景

《JavaSpring中@PostConstruct注解使用原理及常见场景》在JavaSpring中,@PostConstruct注解是一个非常实用的功能,它允许开发者在Spring容器完全初... 目录一、@PostConstruct 注解概述二、@PostConstruct 注解的基本使用2.1 基本代

C#使用StackExchange.Redis实现分布式锁的两种方式介绍

《C#使用StackExchange.Redis实现分布式锁的两种方式介绍》分布式锁在集群的架构中发挥着重要的作用,:本文主要介绍C#使用StackExchange.Redis实现分布式锁的... 目录自定义分布式锁获取锁释放锁自动续期StackExchange.Redis分布式锁获取锁释放锁自动续期分布式

springboot使用Scheduling实现动态增删启停定时任务教程

《springboot使用Scheduling实现动态增删启停定时任务教程》:本文主要介绍springboot使用Scheduling实现动态增删启停定时任务教程,具有很好的参考价值,希望对大家有... 目录1、配置定时任务需要的线程池2、创建ScheduledFuture的包装类3、注册定时任务,增加、删

SpringBoot整合mybatisPlus实现批量插入并获取ID详解

《SpringBoot整合mybatisPlus实现批量插入并获取ID详解》这篇文章主要为大家详细介绍了SpringBoot如何整合mybatisPlus实现批量插入并获取ID,文中的示例代码讲解详细... 目录【1】saveBATch(一万条数据总耗时:2478ms)【2】集合方式foreach(一万条数

使用Python实现矢量路径的压缩、解压与可视化

《使用Python实现矢量路径的压缩、解压与可视化》在图形设计和Web开发中,矢量路径数据的高效存储与传输至关重要,本文将通过一个Python示例,展示如何将复杂的矢量路径命令序列压缩为JSON格式,... 目录引言核心功能概述1. 路径命令解析2. 路径数据压缩3. 路径数据解压4. 可视化代码实现详解1

Pandas透视表(Pivot Table)的具体使用

《Pandas透视表(PivotTable)的具体使用》透视表用于在数据分析和处理过程中进行数据重塑和汇总,本文就来介绍一下Pandas透视表(PivotTable)的具体使用,感兴趣的可以了解一下... 目录前言什么是透视表?使用步骤1. 引入必要的库2. 读取数据3. 创建透视表4. 查看透视表总结前言

Python装饰器之类装饰器详解

《Python装饰器之类装饰器详解》本文将详细介绍Python中类装饰器的概念、使用方法以及应用场景,并通过一个综合详细的例子展示如何使用类装饰器,希望对大家有所帮助,如有错误或未考虑完全的地方,望不... 目录1. 引言2. 装饰器的基本概念2.1. 函数装饰器复习2.2 类装饰器的定义和使用3. 类装饰

Python 交互式可视化的利器Bokeh的使用

《Python交互式可视化的利器Bokeh的使用》Bokeh是一个专注于Web端交互式数据可视化的Python库,本文主要介绍了Python交互式可视化的利器Bokeh的使用,具有一定的参考价值,感... 目录1. Bokeh 简介1.1 为什么选择 Bokeh1.2 安装与环境配置2. Bokeh 基础2

Android使用ImageView.ScaleType实现图片的缩放与裁剪功能

《Android使用ImageView.ScaleType实现图片的缩放与裁剪功能》ImageView是最常用的控件之一,它用于展示各种类型的图片,为了能够根据需求调整图片的显示效果,Android提... 目录什么是 ImageView.ScaleType?FIT_XYFIT_STARTFIT_CENTE

MySQL 中的 JSON 查询案例详解

《MySQL中的JSON查询案例详解》:本文主要介绍MySQL的JSON查询的相关知识,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录mysql 的 jsON 路径格式基本结构路径组件详解特殊语法元素实际示例简单路径复杂路径简写操作符注意MySQL 的 J