【深度学习】四种归一化方式对比:| LayerNorm,BatchNorm,InstanceNorm,GroupNorm

本文主要是介绍【深度学习】四种归一化方式对比:| LayerNorm,BatchNorm,InstanceNorm,GroupNorm,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 1 四种归一化方式对比
  • 2 代码实践
    • 2.1 BatchNorm(批归一化)
    • 2.2 LayerNorm(层归一化)
    • 2.3 InstanceNorm(实例归一化)
    • 2.4 GroupNorm(组归一化)

归一化技术可以很好地,缓解梯度消失/爆炸问题,并有助于更快地收敛,也是一种正则化技术防止过拟合

实际中会看到好多归一化

比如BatchNorm,LayerNorm,GroupNorm,InstanceNorm

1 四种归一化方式对比

这四种归一化方法在神经网络中都有各自的应用场景和特点:

  1. BatchNorm(批归一化)

    • 应用场景:通常用于卷积神经网络(CNN)和全连接神经网络(DNN)中。
    • 工作原理:对每个特征通道在每个训练批次上进行归一化,使得均值接近0,方差接近1。
    • 优点:加速训练收敛,减少梯度消失/爆炸问题,具有轻微的正则化效果。
    • 示例:在训练图像分类模型时,可以使用nn.BatchNorm2d对卷积层的输出进行归一化。
  2. LayerNorm(层归一化)

    • 应用场景:适用于循环神经网络(RNN)和Transformer等序列模型中。
    • 工作原理:对每个样本的每个特征通道进行归一化,使得均值接近0,方差接近1。
    • 优点:不受批量大小影响,适用于小批量大小和单个样本的情况。
    • 示例:在Transformer的每个注意力子层后应用nn.LayerNorm对特征进行归一化。
  3. GroupNorm(组归一化)

    • 应用场景:适用于通道较少的情况,例如较小的卷积神经网络或分组卷积中。
    • 工作原理:将通道分成多个组,在每个组内对通道进行归一化,每个组有自己的均值和方差。
    • 优点:不受批量大小影响,适用于小批量大小和通道较少的情况。
    • 示例:在较小的卷积神经网络中,可以使用nn.GroupNorm对通道进行归一化。
  4. InstanceNorm(实例归一化)

    • 应用场景:适用于风格迁移、超分辨率等需要保留样本间信息的任务中。
    • 工作原理:对每个样本的每个通道进行归一化,使得每个样本的均值接近0,方差接近1。
    • 优点:不受批量大小影响,保留了样本间的信息。
    • 示例:在风格迁移网络中,可以使用nn.InstanceNorm2d对特征进行归一化。

综上所述,选择适当的归一化方法取决于具体的神经网络架构、任务需求和数据特征。

2 代码实践

2.1 BatchNorm(批归一化)

nn.BatchNorm2d是PyTorch中用于实现批归一化(Batch Normalization)的类,适用于二维输入,通常用于卷积神经网络(CNN)中。它将输入沿着指定的维度(通常是通道维度)进行归一化,使得每个通道的均值接近0,方差接近1。

nn.BatchNorm2d的主要参数包括:

  • num_features:输入特征的数量,通常为输入数据的通道数。
  • eps:为保证数值稳定性而添加到方差的小值。
  • momentum:用于计算 running mean 和 running variance 的动量。

下面是一个示例代码,演示了如何使用nn.BatchNorm2d对输入张量进行归一化:

import torch
import torch.nn as nn# 创建一个输入张量,大小为(batch_size, num_channels, height, width)
input_tensor = torch.randn(2, 3, 3, 3)# 创建一个BatchNorm2d层,对每个通道进行归一化
batch_norm = nn.BatchNorm2d(3)# 对输入张量进行归一化
output = batch_norm(input_tensor)print(output.shape)

在这个示例中,nn.BatchNorm2d(3)表示对输入张量的每个通道进行归一化,其中3是输入张量的通道数。最终输出的形状与输入张量相同。

2.2 LayerNorm(层归一化)

nn.LayerNorm是PyTorch中用于实现层归一化(Layer Normalization)的类,适用于多维输入。与批归一化不同,层归一化是在每个样本的每个通道上进行归一化,而不是在整个批次上。这使得它更适合用于循环神经网络(RNN)等序列模型中,因为它不依赖于批次大小,并且对单个样本也有效。

nn.LayerNorm的主要参数包括:

  • normalized_shape:输入张量的形状,通常是一个整数或整数元组,表示输入张量的特征维度。
  • eps:为保证数值稳定性而添加到方差的小值。

下面是一个示例代码,演示了如何使用nn.LayerNorm对输入张量进行归一化:

import torch
import torch.nn as nn# 创建一个输入张量,大小为(batch_size, num_channels, height, width)
input_tensor = torch.randn(2, 3, 3, 3)# 创建一个LayerNorm层,对每个样本的每个通道进行归一化
layer_norm = nn.LayerNorm([3, 3, 3])# 对输入张量进行归一化
output = layer_norm(input_tensor)print(output.shape)

在这个示例中,nn.LayerNorm([3, 3, 3])表示对输入张量的每个样本的每个通道进行归一化,其中[3, 3, 3]是输入张量的特征维度。最终输出的形状与输入张量相同。

2.3 InstanceNorm(实例归一化)

nn.InstanceNorm2d是PyTorch中用于实现实例归一化(Instance Normalization)的类,适用于二维输入,通常用于风格迁移、超分辨率等需要保留样本间信息的任务中。与批归一化不同,实例归一化在每个样本的每个通道上进行归一化,而不是在整个批次上。这使得它更适合保留样本间的信息,并且不依赖于批次大小。

nn.InstanceNorm2d的主要参数包括:

  • num_features:输入特征的数量,通常为输入数据的通道数。
  • eps:为保证数值稳定性而添加到方差的小值。

下面是一个示例代码,演示了如何使用nn.InstanceNorm2d对输入张量进行归一化:

import torch
import torch.nn as nn# 创建一个输入张量,大小为(batch_size, num_channels, height, width)
input_tensor = torch.randn(2, 3, 3, 3)# 创建一个InstanceNorm2d层,对每个样本的每个通道进行独立的归一化
instance_norm = nn.InstanceNorm2d(3)# 对输入张量进行归一化
output = instance_norm(input_tensor)print(output.shape)

在这个示例中,nn.InstanceNorm2d(3)表示对输入张量的每个样本的每个通道进行独立的归一化,其中3是输入张量的通道数。最终输出的形状与输入张量相同。

2.4 GroupNorm(组归一化)

torch.nn.GroupNorm是PyTorch中的一个归一化层,用于在神经网络中标准化输入。与torch.nn.BatchNorm(批标准化)不同,GroupNorm将输入分成多个组,并在每个组内进行标准化。这种归一化方法在小批量大小下也能保持性能,并且对于通道数较少的情况更有效。以下是GroupNorm的主要特点和参数:

  • num_groups(int):将输入通道分成多少组。每个组内的通道会被一起归一化。
  • num_channels(int):输入张量的通道数。
  • eps(float):用于数值稳定性的epsilon值,避免除以零的情况。

当分组数和通道数相同的时候,相当于调用InstanceNorm

当分组数为1的时候,相当于调用LayerNorm

input = torch.randn(20, 6, 10, 10)
# 6个通道分为3个
m = nn.GroupNorm(3, 6)
#6个通道分为3个 (等价于InstanceNorm)
m = nn.GroupNorm(6, 6)
# 6个通道分为1个 (等价于LayerNorm)
m = nn.GroupNorm(1, 6)
output = m(input)

使用示例:

import torch
import torch.nn as nn# 创建一个输入张量,大小为(batch_size, num_channels, height, width)
input_tensor = torch.randn(2, 6, 3, 3)# 创建一个GroupNorm层,将通道分成2组
group_norm = nn.GroupNorm(2, 6)# 对输入张量进行标准化
output = group_norm(input_tensor)print(output.shape)

在上面的示例中,GroupNorm层将输入张量的通道分成了2组,然后在每个组内进行标准化。

这篇关于【深度学习】四种归一化方式对比:| LayerNorm,BatchNorm,InstanceNorm,GroupNorm的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/807005

相关文章

Java中Redisson 的原理深度解析

《Java中Redisson的原理深度解析》Redisson是一个高性能的Redis客户端,它通过将Redis数据结构映射为Java对象和分布式对象,实现了在Java应用中方便地使用Redis,本文... 目录前言一、核心设计理念二、核心架构与通信层1. 基于 Netty 的异步非阻塞通信2. 编解码器三、

Java HashMap的底层实现原理深度解析

《JavaHashMap的底层实现原理深度解析》HashMap基于数组+链表+红黑树结构,通过哈希算法和扩容机制优化性能,负载因子与树化阈值平衡效率,是Java开发必备的高效数据结构,本文给大家介绍... 目录一、概述:HashMap的宏观结构二、核心数据结构解析1. 数组(桶数组)2. 链表节点(Node

Java AOP面向切面编程的概念和实现方式

《JavaAOP面向切面编程的概念和实现方式》AOP是面向切面编程,通过动态代理将横切关注点(如日志、事务)与核心业务逻辑分离,提升代码复用性和可维护性,本文给大家介绍JavaAOP面向切面编程的概... 目录一、AOP 是什么?二、AOP 的核心概念与实现方式核心概念实现方式三、Spring AOP 的关

Java 虚拟线程的创建与使用深度解析

《Java虚拟线程的创建与使用深度解析》虚拟线程是Java19中以预览特性形式引入,Java21起正式发布的轻量级线程,本文给大家介绍Java虚拟线程的创建与使用,感兴趣的朋友一起看看吧... 目录一、虚拟线程简介1.1 什么是虚拟线程?1.2 为什么需要虚拟线程?二、虚拟线程与平台线程对比代码对比示例:三

Python函数作用域与闭包举例深度解析

《Python函数作用域与闭包举例深度解析》Python函数的作用域规则和闭包是编程中的关键概念,它们决定了变量的访问和生命周期,:本文主要介绍Python函数作用域与闭包的相关资料,文中通过代码... 目录1. 基础作用域访问示例1:访问全局变量示例2:访问外层函数变量2. 闭包基础示例3:简单闭包示例4

Linux挂载linux/Windows共享目录实现方式

《Linux挂载linux/Windows共享目录实现方式》:本文主要介绍Linux挂载linux/Windows共享目录实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录文件共享协议linux环境作为服务端(NFS)在服务器端安装 NFS创建要共享的目录修改 NFS 配

Vue3视频播放组件 vue3-video-play使用方式

《Vue3视频播放组件vue3-video-play使用方式》vue3-video-play是Vue3的视频播放组件,基于原生video标签开发,支持MP4和HLS流,提供全局/局部引入方式,可监听... 目录一、安装二、全局引入三、局部引入四、基本使用五、事件监听六、播放 HLS 流七、更多功能总结在 v

java中ssh2执行多条命令的四种方法

《java中ssh2执行多条命令的四种方法》本文主要介绍了java中ssh2执行多条命令的四种方法,包括分号分隔、管道分隔、EOF块、脚本调用,可确保环境配置生效,提升操作效率,具有一定的参考价值,感... 目录1 使用分号隔开2 使用管道符号隔开3 使用写EOF的方式4 使用脚本的方式大家平时有没有遇到自

Python打包成exe常用的四种方法小结

《Python打包成exe常用的四种方法小结》本文主要介绍了Python打包成exe常用的四种方法,包括PyInstaller、cx_Freeze、Py2exe、Nuitka,文中通过示例代码介绍的非... 目录一.PyInstaller11.安装:2. PyInstaller常用参数下面是pyinstal

Java发送SNMP至交换机获取交换机状态实现方式

《Java发送SNMP至交换机获取交换机状态实现方式》文章介绍使用SNMP4J库(2.7.0)通过RCF1213-MIB协议获取交换机单/多路状态,需开启SNMP支持,重点对比SNMPv1、v2c、v... 目录交换机协议SNMP库获取交换机单路状态获取交换机多路状态总结交换机协议这里使用的交换机协议为常