Empirical Evaluation of Rectified Activation in Convoluation Network 激活函数的讨论

本文主要是介绍Empirical Evaluation of Rectified Activation in Convoluation Network 激活函数的讨论,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Empirical Evaluation of Rectified Activation in Convoluation Network

对神经网络激活函数的经验评估

Standard rectified linear unit    relu  标准整流线单元   这是最常用的激活函数

Leaky rectified linear unit      lrelu

Parametric rectified linear unit  prelu

Randomized leakly rectified linear unit   rrelu

 

我们的实验表明, 在整流活化单元中, 将非零斜率合并为负的部分可以持续地改善结果。

此外, 在小规模数据集上, 使用确定性负斜率或学习它都容易拟。

所以在遥感影像数据集上高质量有标签数据的缺乏,小数据集的特性是更适合rrelu的。

 

尽管其深度,现代深度学习系统的关键特征之一是使用非饱和激活函数(例如ReLU)来替换其饱和对象(例如S形,tanh)。

使用非饱和激活(rrelu)功能的优点在于两个方面:一是解决所谓的“爆炸/消失梯度”,二是加快收敛速度。

 

讨论一下激活函数:

神经元只对输入部分的少部分选择性响应,大部分信号被屏蔽了,这样可以提高学习的精度,更快更好的获取稀疏学习特征。传统的sigmoid函数,同时有近乎一半的神经元被激活,不符合神经元激活的特性。

最重要的两点,第一:稀疏神经元激活的稀疏性。第二,激活函数的区域性。

 

关于稀疏性的特点:

  1. 信息解离:

当前,深度学习一个明确的目标是从数据变量中解离出关键因子。原始数据(以自然数据为主)中通常缠绕着高度密集的特征。原因是这些特征向量是相互关联的,一个小小的关键因子可能牵扰着一堆特征,有点像蝴蝶效应,牵一发而动全身。

基于数学原理的传统机器学习手段在解离这些关联特征方面具有致命弱点。

然而,如果能够解开特征间缠绕的复杂关系,转换为稀疏特征,那么特征就有了鲁棒性(去掉了无关的噪声)

  1. 线性可分性:

稀疏特征有更大可能线性可分,或者对非线性映射机制有更小的依赖。因为稀疏特征处于高维的特征空间上(被自动映射了)

从流形学习观点来看(参见降噪自动编码器),稀疏特征被移到了一个较为纯净的低维流形面上。

线性可分性亦可参照天然稀疏的文本型数据,即便没有隐层结构,仍然可以被分离的很好。

  1. 稀疏性激活函数的作用:

激活函数本身具有稀疏性,可以更有效的从数据集上学习到相对稀疏的特征。起到自动化解离的效果。

 

过分强调稀疏性引入也不好,会减少模型的有效容量,即特征屏蔽太多,导致模型无法学习到有效特征。论文中对稀疏性的引入度做了实验,理想稀疏性(强制置0)比率是70%~85%。超过85%,网络就容量就成了问题,导致错误率极高。对比大脑工作的95%稀疏性来看,现有的计算神经网络和生物神经网络还是有很大差距的。

庆幸的是,ReLu只有负值才会被稀疏掉,即引入的稀疏性是可以训练调节的,是动态变化的。

只要进行梯度训练,网络可以向误差减少的方向,自动调控稀疏比率,保证激活链上存在着合理数量的非零值。

Relu函数,使得迷行自动引入稀疏性,这一做法,等效于无监督学习的预训练。缩小了非监督和监督学习之间的代沟,当然,加快了网络训练速度。

 

First, is sparsity the most important factor for a good performance?
Second, can we design better non-saturated activation functions that could beat ReLU?

 

 

相比较于relu的负数部分全部取0,对lrelu,ai是固定的,对prelu,ai是学习得到的,对Rrelu,ai在训练集上是一个在一定范围内随机变化的,在测试集上是固定的。

Relu:

Lrelu:

在原论文中,ai值被设为接近100,这篇论文中,该值设定为5.5

leaked = tf.scalar_mul(leaky_ratio, features)
tensor = tf.maximum(features, leaked,                  

name='maximum')
return tensor

Prelu:

公式同lrelu,不过ai是通过反向传播算法从训练上学习到的。

Rrelu:

aji服从均匀分布,对aji的取值

 

实验结果:

1.CIFAR-10/100  采用NIN或者Inception结构上进行了不同激活函数的训练

2.National Data Science Bowl Competition

NDSB Net

 

Result and Discussion

以relu函数为基准,

  1. lrelu表现好于relu,a=100与relu差不多,但是a越小,效果越好
  2. 在训练集上,prelu的loss最低的,而lrelu和rrelu的loss都要比relu要高,这说明prelu可能在小数据集上存在比较严重的过拟合问题。
  3. 在NDSB数据集上训练集更小,但是模型结构更大,所以说Rrelu在对抗过拟合的时候效果更好。

 

结论:

  1. relu函数并不是最好的,lrelu变体就很好,但是缺乏理论支持。
  2. 大尺度数据集上的激活函数?

 

这篇关于Empirical Evaluation of Rectified Activation in Convoluation Network 激活函数的讨论的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/248396

相关文章

Pandas中统计汇总可视化函数plot()的使用

《Pandas中统计汇总可视化函数plot()的使用》Pandas提供了许多强大的数据处理和分析功能,其中plot()函数就是其可视化功能的一个重要组成部分,本文主要介绍了Pandas中统计汇总可视化... 目录一、plot()函数简介二、plot()函数的基本用法三、plot()函数的参数详解四、使用pl

Python的time模块一些常用功能(各种与时间相关的函数)

《Python的time模块一些常用功能(各种与时间相关的函数)》Python的time模块提供了各种与时间相关的函数,包括获取当前时间、处理时间间隔、执行时间测量等,:本文主要介绍Python的... 目录1. 获取当前时间2. 时间格式化3. 延时执行4. 时间戳运算5. 计算代码执行时间6. 转换为指

Python正则表达式语法及re模块中的常用函数详解

《Python正则表达式语法及re模块中的常用函数详解》这篇文章主要给大家介绍了关于Python正则表达式语法及re模块中常用函数的相关资料,正则表达式是一种强大的字符串处理工具,可以用于匹配、切分、... 目录概念、作用和步骤语法re模块中的常用函数总结 概念、作用和步骤概念: 本身也是一个字符串,其中

shell编程之函数与数组的使用详解

《shell编程之函数与数组的使用详解》:本文主要介绍shell编程之函数与数组的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录shell函数函数的用法俩个数求和系统资源监控并报警函数函数变量的作用范围函数的参数递归函数shell数组获取数组的长度读取某下的

MySQL高级查询之JOIN、子查询、窗口函数实际案例

《MySQL高级查询之JOIN、子查询、窗口函数实际案例》:本文主要介绍MySQL高级查询之JOIN、子查询、窗口函数实际案例的相关资料,JOIN用于多表关联查询,子查询用于数据筛选和过滤,窗口函... 目录前言1. JOIN(连接查询)1.1 内连接(INNER JOIN)1.2 左连接(LEFT JOI

MySQL中FIND_IN_SET函数与INSTR函数用法解析

《MySQL中FIND_IN_SET函数与INSTR函数用法解析》:本文主要介绍MySQL中FIND_IN_SET函数与INSTR函数用法解析,本文通过实例代码给大家介绍的非常详细,感兴趣的朋友一... 目录一、功能定义与语法1、FIND_IN_SET函数2、INSTR函数二、本质区别对比三、实际场景案例分

C++ Sort函数使用场景分析

《C++Sort函数使用场景分析》sort函数是algorithm库下的一个函数,sort函数是不稳定的,即大小相同的元素在排序后相对顺序可能发生改变,如果某些场景需要保持相同元素间的相对顺序,可使... 目录C++ Sort函数详解一、sort函数调用的两种方式二、sort函数使用场景三、sort函数排序

C语言函数递归实际应用举例详解

《C语言函数递归实际应用举例详解》程序调用自身的编程技巧称为递归,递归做为一种算法在程序设计语言中广泛应用,:本文主要介绍C语言函数递归实际应用举例的相关资料,文中通过代码介绍的非常详细,需要的朋... 目录前言一、递归的概念与思想二、递归的限制条件 三、递归的实际应用举例(一)求 n 的阶乘(二)顺序打印

C/C++错误信息处理的常见方法及函数

《C/C++错误信息处理的常见方法及函数》C/C++是两种广泛使用的编程语言,特别是在系统编程、嵌入式开发以及高性能计算领域,:本文主要介绍C/C++错误信息处理的常见方法及函数,文中通过代码介绍... 目录前言1. errno 和 perror()示例:2. strerror()示例:3. perror(

Kotlin 作用域函数apply、let、run、with、also使用指南

《Kotlin作用域函数apply、let、run、with、also使用指南》在Kotlin开发中,作用域函数(ScopeFunctions)是一组能让代码更简洁、更函数式的高阶函数,本文将... 目录一、引言:为什么需要作用域函数?二、作用域函China编程数详解1. apply:对象配置的 “流式构建器”最