读书笔记--神经网络与深度学习（三）前馈神经网络

本文主要是介绍读书笔记--神经网络与深度学习（三）前馈神经网络，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

4 前馈神经网络

从机器学习的角度看，神经网络一般可以看做是一个非线性模型。

4.1 神经元

净输入z 在经过一个非线性函数f(·)后，得到神经元的活性值（Activation）a，a = f(z), 其中非线性函数f(·)称为激活函数（Activation Function）。
激活函数激活函数在神经元中非常重要的。为了增强网络的表示能力和学习能力，激活函数需要具备以下几点性质：

连续并可导（允许少数点上不可导）的非线性函数。可导的激活函数可以直接利用数值优化的方法来学习网络参数。
激活函数及其导函数要尽可能的简单，有利于提高网络计算效率。
激活函数的导函数的值域要在一个合适的区间内，不能太大也不能太小，否则会影响训练的效率和稳定性。

4.1.1 Sigmoid型激活函数

Sigmoid型函数是指一类S型曲线函数,为两端饱和函数.常用的Sigmoid型函数有Logistic函数和Tanh函数。
对于函数f(x)，若x → −∞时，其导数f′(x) → 0，则称其为左饱和。若x → +∞时，其导数f′(x) → 0，则称其为右饱和。当同时满足左、右饱和时，就称为两端饱和。

4.1.2 修正线性单元

修正线性单元（Rectified Linear Unit，ReLU），也叫rectifier函数，是目前深层神经网络中经常使用的激活函数。

4.1.3 Swish函数

Swish 函数是一种自门控（Self-Gated）激活函数。swish(x) = xσ(βx), 其中σ(·)为Logistic函数，β 为可学习的参数或一个固定超参数。σ(·) ∈ (0, 1)可以看作是一种软性的门控机制。当σ(βx)接近于1时，门处于“开”状态，激活函数的输出近似于x本身；当σ(βx)接近于0时，门的状态为“关”，激活函数的输出近似于0。

4.1.4 Maxout单元

输入是上一层神经元的全部原始输入，是一个向量x = [x1; x2; · · · , xd]。

4.2 网络结构

4.2.1 前馈网络

前馈网络包括全连接前馈网络[本章中的第4.3节] 和卷积神经网络[第5章]等。
前馈网络可以看作一个函数，通过简单非线性函数的多次复合，实现输入空间到输出空间的复杂映射。这种网络结构简单，易于实现

4.2.2 记忆网络

记忆网络，也称为反馈网络，网络中的神经元不但可以接收其它神经元的信息，也可以接收自己的历史信息。和前馈网络相比，记忆网络中的神经元具有记忆功能，在不同的时刻具有不同的状态。记忆神经网络中的信息传播可以是单向或双向传递，因此可用一个有向循环图或无向图来表示。记忆网络包括循环神经网络[第6章]，Hopfield网络[第6章]、玻尔兹曼机[第12章]等。
为了增强记忆网络的记忆容量，可以引入外部记忆单元和读写机制，用来保存一些网络的中间状态，成为记忆增强神经网络。

4.2.3 图网络

前馈网络和反馈网络难以处理图结构的数据。
图网络是前馈网络和记忆网络的泛化，包含很多事实现方式，如图卷积网路，消息传递网络等。

4.3 前馈神经网络

前馈神经网络FNN，是最早发明的简单人工神经网络。也称为多层感知器。（实际上是多层的logistic回归模型）
前馈神经网络通过逐层的信息传递，最后得到网络最后的输出。

4.3.1 通用近似定理

前馈神经网络具有很强的拟合能力，常见的连续非线性函数都可以用前馈网络来近似。
根据通用近似定理，对于具有线性输出层和至少一个使用“挤压”性质的激活函数的隐藏层组成的前馈神经网络，只要其隐藏层神经元的数量足够，它可以以任意的精度来近似任何从一个定义在实数空间 Rd 中的有界闭集函数。所谓“挤压”性质的函数是指像 Sigmoid 函数的有界函数，但神经网络的通用近似性质也被证明对于其它类型的激活函数，比如ReLU，也都是适用的。

4.3.2 应用到机器学习

依据通用近似定理，神经网络在某种程度上可以作为一个“万能”函数来使用，用来进行复杂的特征转换或者逼近一个负责的条件分布。

4.3.3 参数学习

梯度下降法需要计算损失函数对参数的偏导数，如果通过链式法则逐一对每个参数进行求偏导比较低效。在神经网络的训练中经常使用反向传播算法来高效地计算梯度。

4.4 反向传播算法

第l层的误差项可以通过第l + 1层的误差项计算得到，这就是误差的反向传播。
反向传播算法的含义是：第l 层的一个神经元的误差项（或敏感性）是所有与该神经元相连的第l + 1层的神经元的误差项的权重和。然后，再乘上该神经元激活函数的梯度。在计算出每一层的误差项之后，我们就可以得到每一层参数的梯度。
因此，基于误差反向传播算法（Backpropagation，BP）的前馈神经网络训练过程可以
分为以下三步：

前馈计算每一层的净输入z(l) 和激活值a(l)，直到最后一层；
反向传播计算每一层的误差项δ(l)；
计算每一层参数的偏导数，并更新参数。

4.5 自动梯度计算

目前，几乎所有的主流深度学习框架都包含了自动梯度计算的功能，即我们可以只考虑网络结构并用代码实现，其梯度可以自动进行计算，无需人工干预，这样可以大幅提高开发效率。

4.6 优化问题

神经网络的参数学习比线性模型要更加困难，主要原因有两点：（1）非凸优化问题和（2）梯度消失问题。

4.7 小结

本章介绍的前馈神经网络是一种类型最简单的网络，相邻两层的神经元之间为全连接关系，也称为全连接神经网络（Fully Connected Neural Network，FCNN）或多层感知器。
虽然当时前馈神经网络的参数学习依然有很多难点，但其作为一种连接主义的典型模型，标志人工智能从高度符号化的知识期向低符号化的学习期开始转变。

这篇关于读书笔记--神经网络与深度学习（三）前馈神经网络的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

读书笔记--神经网络与深度学习（三）前馈神经网络

4 前馈神经网络

4.1 神经元

4.1.1 Sigmoid型激活函数

4.1.2 修正线性单元

4.1.3 Swish函数

4.1.4 Maxout单元

4.2 网络结构

4.2.1 前馈网络

4.2.2 记忆网络

4.2.3 图网络

4.3 前馈神经网络

4.3.1 通用近似定理

4.3.2 应用到机器学习

4.3.3 参数学习

4.4 反向传播算法

4.5 自动梯度计算

4.6 优化问题

4.7 小结

相关文章

Java中Redisson 的原理深度解析

Java HashMap的底层实现原理深度解析

Java 虚拟线程的创建与使用深度解析

Python函数作用域与闭包举例深度解析

深度解析Python中递归下降解析器的原理与实现

深度解析Java @Serial 注解及常见错误案例

Java MCP 的鉴权深度解析

Maven中生命周期深度解析与实战指南

深度剖析SpringBoot日志性能提升的原因与解决

Unity新手入门学习殿堂级知识详细讲解（图文）