直觉化深度学习教程——什么是前向传播

本文主要是介绍直觉化深度学习教程——什么是前向传播，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

所谓前向传播，就是给网络输入一个样本向量，该样本向量的各元素，经过各隐藏层的逐级加权求和+非线性激活，最终由输出层输出一个预测向量的过程。

看完这篇博客，你要是还不懂，一定是我哪里没写清楚，请联系我。

文章目录

@[toc]

一个简化的例子
加权和的计算
激活值的计算
矩阵化表示的好处

一个简化的例子

因为神经网络两层之间的连线、符号、上下标，确实让人头大，我们可以由一个简化的网络来计算出神经网络两层之间激活值的传递关系。

如图1所示，我们假设一第l层的神经元有2个，第l-1层（也就是上一层）的神经元有3个。每类符号的含义已在图中说明。

在这里插入图片描述

图1.简化的局部网络

由于符号和下标实在太多，因此我们只要计算第一个神经元的 $z^l_1$ 及 $a^l_1$ ，第二个神经元的 $z^l_2$ 及 $a^l_2$ 简直就是照猫画虎了。图1中有一个会让人初次接触时感觉别扭，就是权重 $w$ 的下标由其所连接的两个神经元的各自层的索引下标组成，前一层的索引在右边，而后一层的神经元左边，这是为了后面构造矩阵乘法显得简洁。

加权和的计算

根据图1，我们可以按照图2所示，将 $z^l_1$ 求出来，然后同理求出 $z^l_2$ ，两个元素对堆叠起来，即可用一个矩阵乘积再加上偏置向量来表示。

在这里插入图片描述

图2.加权和的计算

由图2，显然可以看出：

上一层神经元越多，W的列数越多，即越宽
本层神经元越多，W的行数越多，即越高。
偏置 $\vec{b}$ 的元素个数，等于本层神经元个数，与上一层神经元个数无关。

进一步地，有时候我们追求简洁，干脆将偏置融入权重矩阵中，构造出增广的 $W$ ；同时，给上一层的激活值向量 $\vec{a}$ 也增加一个元素1，这样能得到更简洁的纯粹矩阵乘法的形式。如图3所示。

在这里插入图片描述

图3.加权和的两种表示方法

激活值的计算

ok，现在我们有了加权和 $\vec{z}$ 的计算表达式，即由上一层输出的激活值向量获得本层的加权和，而且我们有两种形式的表达式，因此激活值的计算表达式也是两种。如图4所示。

注意，这里的激活 $\sigma()$ 指的是对输入向量的每个元素进行激活，即标量运算。输入的向量 $\vec{z}^l$ 有多少个元素，输出也对应多少个元素。

在这里插入图片描述

图4.激活值前向传播的两种常见表示方法

图4的两种表示方法，均表达了由上一层的激活值 $\vec{a}^{l-1}$ 是如何通过本层的权重和偏置，计算出本层的激活值 $\vec{a}^{l}$ 来的。为了强调偏置 $b$ ，我们用常规表示法。

这样，即构成了一种传递，或者传播。叫啥都行，关键是理解。

如此，便可以如图5所示，对于输入层的一个样本向量 $\vec{x}$ ，我们可以通过简洁且固定规律的表达式，来迭代出最终的网络输出 $\vec{l}$ ，神经网络千丝万缕的符号、连接海洋，被这么简单的且重复的表达式搞定了，来，让我们向线性代数致敬！

图5假定为总共l+1层网络。

在这里插入图片描述

图5.前向传播的总过程

图5描述的是前向传播的总过程，我们可以仔细解读一下：

重复的同与不同

虽然隐藏层中是重复地做加权和+非线性激活，但是每层网络的权重矩阵 $W$ 、偏置 $\vec{b}$ 并不相同，各层的加权和 $\vec{z}$ 因此并非一样的运算。
输出层激活函数的特殊性

输出层的激活函数由于与目标函数有“组合效应”，因此常常根据目标函数的构造，选用搭配的激活函数，后面反向传播时会详细讨论。
$W$ 与两层网络间的线性变换的对应

只要每次看到 $W$ 对 $\vec{x}$ 进行线性变换，请自动脑补：两层网络之间网络连接，以及加权和的生成公式。

由于很多表达式为了追求简洁，省略了偏置 $b$ 的表示，但偏置 $b$ 可能被省略，但它一直存在。因此别忘了它。
$\sigma(W·)$ 表示一层神经网络前向传播。

一层的完整传播，必须包括 $W$ 与 $\sigma(·)$ 。
后面我们将看到RNN、LSTM里的 $W$ 或 $\sigma(W·)$ ，请自动脑补成加权和网络，或者一层完整前向传播。