直觉化深度学习教程——什么是前向传播

2024-01-23 21:18

本文主要是介绍直觉化深度学习教程——什么是前向传播,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

所谓前向传播,就是给网络输入一个样本向量,该样本向量的各元素,经过各隐藏层的逐级加权求和+非线性激活,最终由输出层输出一个预测向量的过程。

看完这篇博客,你要是还不懂,一定是我哪里没写清楚,请联系我。

文章目录

    • @[toc]
  • 一个简化的例子
  • 加权和的计算
  • 激活值的计算
  • 矩阵化表示的好处

一个简化的例子

因为神经网络两层之间的连线、符号、上下标,确实让人头大,我们可以由一个简化的网络来计算出神经网络两层之间激活值的传递关系。

如图1所示,我们假设一第l层的神经元有2个,第l-1层(也就是上一层)的神经元有3个。每类符号的含义已在图中说明。

在这里插入图片描述

图1.简化的局部网络

由于符号和下标实在太多,因此我们只要计算第一个神经元的 z 1 l z^l_1 z1l a 1 l a^l_1 a1l,第二个神经元的 z 2 l z^l_2 z2l a 2 l a^l_2 a2l简直就是照猫画虎了。图1中有一个会让人初次接触时感觉别扭,就是权重 w w w的下标由其所连接的两个神经元的各自层的索引下标组成,前一层的索引在右边,而后一层的神经元左边,这是为了后面构造矩阵乘法显得简洁。


加权和的计算

根据图1,我们可以按照图2所示,将 z 1 l z^l_1 z1l求出来,然后同理求出 z 2 l z^l_2 z2l,两个元素对堆叠起来,即可用一个矩阵乘积再加上偏置向量来表示。

在这里插入图片描述

图2.加权和的计算

由图2,显然可以看出:

  • 上一层神经元越多,W的列数越多,即越宽
  • 本层神经元越多,W的行数越多,即越高。
  • 偏置 b ⃗ \vec{b} b 的元素个数,等于本层神经元个数,与上一层神经元个数无关。

进一步地,有时候我们追求简洁,干脆将偏置融入权重矩阵中,构造出增广的 W W W;同时,给上一层的激活值向量 a ⃗ \vec{a} a 也增加一个元素1,这样能得到更简洁的纯粹矩阵乘法的形式。如图3所示。

在这里插入图片描述

图3.加权和的两种表示方法

激活值的计算

ok,现在我们有了加权和 z ⃗ \vec{z} z 的计算表达式,即由上一层输出的激活值向量获得本层的加权和,而且我们有两种形式的表达式,因此激活值的计算表达式也是两种。如图4所示。

注意,这里的激活 σ ( ) \sigma() σ()指的是对输入向量的每个元素进行激活,即标量运算。输入的向量 z ⃗ l \vec{z}^l z l有多少个元素,输出也对应多少个元素。

在这里插入图片描述

图4.激活值前向传播的两种常见表示方法

图4的两种表示方法,均表达了由上一层的激活值 a ⃗ l − 1 \vec{a}^{l-1} a l1是如何通过本层的权重和偏置,计算出本层的激活值 a ⃗ l \vec{a}^{l} a l来的。为了强调偏置 b b b,我们用常规表示法。

这样,即构成了一种传递,或者传播。叫啥都行,关键是理解。

如此,便可以如图5所示,对于输入层的一个样本向量 x ⃗ \vec{x} x ,我们可以通过简洁且固定规律的表达式,来迭代出最终的网络输出 l ⃗ \vec{l} l ,神经网络千丝万缕的符号、连接海洋,被这么简单的且重复的表达式搞定了,来,让我们向线性代数致敬!

图5假定为总共l+1层网络。

在这里插入图片描述

图5.前向传播的总过程

图5描述的是前向传播的总过程,我们可以仔细解读一下:

  • 重复的同与不同

    虽然隐藏层中是重复地做加权和+非线性激活,但是每层网络的权重矩阵 W W W、偏置 b ⃗ \vec{b} b 并不相同,各层的加权和 z ⃗ \vec{z} z 因此并非一样的运算。

  • 输出层激活函数的特殊性

    输出层的激活函数由于与目标函数有“组合效应”,因此常常根据目标函数的构造,选用搭配的激活函数,后面反向传播时会详细讨论。

  • W W W与两层网络间的线性变换的对应

    只要每次看到 W W W x ⃗ \vec{x} x 进行线性变换,请自动脑补:两层网络之间网络连接,以及加权和的生成公式。

    由于很多表达式为了追求简洁,省略了偏置 b b b的表示,但偏置 b b b可能被省略,但它一直存在。因此别忘了它。

  • σ ( W ⋅ ) \sigma(W·) σ(W)表示一层神经网络前向传播。

    一层的完整传播,必须包括 W W W σ ( ⋅ ) \sigma(·) σ()

  • 后面我们将看到RNN、LSTM里的 W W W σ ( W ⋅ ) \sigma(W·) σ(W),请自动脑补成加权和网络,或者一层完整前向传播


矩阵化表示的好处

好了,简单总结一下应用上述推导结果的好处。

  • 有利于模型的准确定义

  • 方便软件实现

  • 方便硬件的加速(AI芯片或显卡)

  • 化繁为简,给思维减负,有利于创新。

这篇关于直觉化深度学习教程——什么是前向传播的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/637556

相关文章

Java中Redisson 的原理深度解析

《Java中Redisson的原理深度解析》Redisson是一个高性能的Redis客户端,它通过将Redis数据结构映射为Java对象和分布式对象,实现了在Java应用中方便地使用Redis,本文... 目录前言一、核心设计理念二、核心架构与通信层1. 基于 Netty 的异步非阻塞通信2. 编解码器三、

Java HashMap的底层实现原理深度解析

《JavaHashMap的底层实现原理深度解析》HashMap基于数组+链表+红黑树结构,通过哈希算法和扩容机制优化性能,负载因子与树化阈值平衡效率,是Java开发必备的高效数据结构,本文给大家介绍... 目录一、概述:HashMap的宏观结构二、核心数据结构解析1. 数组(桶数组)2. 链表节点(Node

Java 虚拟线程的创建与使用深度解析

《Java虚拟线程的创建与使用深度解析》虚拟线程是Java19中以预览特性形式引入,Java21起正式发布的轻量级线程,本文给大家介绍Java虚拟线程的创建与使用,感兴趣的朋友一起看看吧... 目录一、虚拟线程简介1.1 什么是虚拟线程?1.2 为什么需要虚拟线程?二、虚拟线程与平台线程对比代码对比示例:三

Python函数作用域与闭包举例深度解析

《Python函数作用域与闭包举例深度解析》Python函数的作用域规则和闭包是编程中的关键概念,它们决定了变量的访问和生命周期,:本文主要介绍Python函数作用域与闭包的相关资料,文中通过代码... 目录1. 基础作用域访问示例1:访问全局变量示例2:访问外层函数变量2. 闭包基础示例3:简单闭包示例4

全网最全Tomcat完全卸载重装教程小结

《全网最全Tomcat完全卸载重装教程小结》windows系统卸载Tomcat重新通过ZIP方式安装Tomcat,优点是灵活可控,适合开发者自定义配置,手动配置环境变量后,可通过命令行快速启动和管理... 目录一、完全卸载Tomcat1. 停止Tomcat服务2. 通过控制面板卸载3. 手动删除残留文件4.

Python的pandas库基础知识超详细教程

《Python的pandas库基础知识超详细教程》Pandas是Python数据处理核心库,提供Series和DataFrame结构,支持CSV/Excel/SQL等数据源导入及清洗、合并、统计等功能... 目录一、配置环境二、序列和数据表2.1 初始化2.2  获取数值2.3 获取索引2.4 索引取内容2

python依赖管理工具UV的安装和使用教程

《python依赖管理工具UV的安装和使用教程》UV是一个用Rust编写的Python包安装和依赖管理工具,比传统工具(如pip)有着更快、更高效的体验,:本文主要介绍python依赖管理工具UV... 目录前言一、命令安装uv二、手动编译安装2.1在archlinux安装uv的依赖工具2.2从github

C#实现SHP文件读取与地图显示的完整教程

《C#实现SHP文件读取与地图显示的完整教程》在地理信息系统(GIS)开发中,SHP文件是一种常见的矢量数据格式,本文将详细介绍如何使用C#读取SHP文件并实现地图显示功能,包括坐标转换、图形渲染、平... 目录概述功能特点核心代码解析1. 文件读取与初始化2. 坐标转换3. 图形绘制4. 地图交互功能缩放

SpringBoot集成redisson实现延时队列教程

《SpringBoot集成redisson实现延时队列教程》文章介绍了使用Redisson实现延迟队列的完整步骤,包括依赖导入、Redis配置、工具类封装、业务枚举定义、执行器实现、Bean创建、消费... 目录1、先给项目导入Redisson依赖2、配置redis3、创建 RedissonConfig 配

深度解析Python中递归下降解析器的原理与实现

《深度解析Python中递归下降解析器的原理与实现》在编译器设计、配置文件处理和数据转换领域,递归下降解析器是最常用且最直观的解析技术,本文将详细介绍递归下降解析器的原理与实现,感兴趣的小伙伴可以跟随... 目录引言:解析器的核心价值一、递归下降解析器基础1.1 核心概念解析1.2 基本架构二、简单算术表达