直觉化深度学习教程——什么是前向传播

2024-01-23 21:18

本文主要是介绍直觉化深度学习教程——什么是前向传播,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

所谓前向传播,就是给网络输入一个样本向量,该样本向量的各元素,经过各隐藏层的逐级加权求和+非线性激活,最终由输出层输出一个预测向量的过程。

看完这篇博客,你要是还不懂,一定是我哪里没写清楚,请联系我。

文章目录

    • @[toc]
  • 一个简化的例子
  • 加权和的计算
  • 激活值的计算
  • 矩阵化表示的好处

一个简化的例子

因为神经网络两层之间的连线、符号、上下标,确实让人头大,我们可以由一个简化的网络来计算出神经网络两层之间激活值的传递关系。

如图1所示,我们假设一第l层的神经元有2个,第l-1层(也就是上一层)的神经元有3个。每类符号的含义已在图中说明。

在这里插入图片描述

图1.简化的局部网络

由于符号和下标实在太多,因此我们只要计算第一个神经元的 z 1 l z^l_1 z1l a 1 l a^l_1 a1l,第二个神经元的 z 2 l z^l_2 z2l a 2 l a^l_2 a2l简直就是照猫画虎了。图1中有一个会让人初次接触时感觉别扭,就是权重 w w w的下标由其所连接的两个神经元的各自层的索引下标组成,前一层的索引在右边,而后一层的神经元左边,这是为了后面构造矩阵乘法显得简洁。


加权和的计算

根据图1,我们可以按照图2所示,将 z 1 l z^l_1 z1l求出来,然后同理求出 z 2 l z^l_2 z2l,两个元素对堆叠起来,即可用一个矩阵乘积再加上偏置向量来表示。

在这里插入图片描述

图2.加权和的计算

由图2,显然可以看出:

  • 上一层神经元越多,W的列数越多,即越宽
  • 本层神经元越多,W的行数越多,即越高。
  • 偏置 b ⃗ \vec{b} b 的元素个数,等于本层神经元个数,与上一层神经元个数无关。

进一步地,有时候我们追求简洁,干脆将偏置融入权重矩阵中,构造出增广的 W W W;同时,给上一层的激活值向量 a ⃗ \vec{a} a 也增加一个元素1,这样能得到更简洁的纯粹矩阵乘法的形式。如图3所示。

在这里插入图片描述

图3.加权和的两种表示方法

激活值的计算

ok,现在我们有了加权和 z ⃗ \vec{z} z 的计算表达式,即由上一层输出的激活值向量获得本层的加权和,而且我们有两种形式的表达式,因此激活值的计算表达式也是两种。如图4所示。

注意,这里的激活 σ ( ) \sigma() σ()指的是对输入向量的每个元素进行激活,即标量运算。输入的向量 z ⃗ l \vec{z}^l z l有多少个元素,输出也对应多少个元素。

在这里插入图片描述

图4.激活值前向传播的两种常见表示方法

图4的两种表示方法,均表达了由上一层的激活值 a ⃗ l − 1 \vec{a}^{l-1} a l1是如何通过本层的权重和偏置,计算出本层的激活值 a ⃗ l \vec{a}^{l} a l来的。为了强调偏置 b b b,我们用常规表示法。

这样,即构成了一种传递,或者传播。叫啥都行,关键是理解。

如此,便可以如图5所示,对于输入层的一个样本向量 x ⃗ \vec{x} x ,我们可以通过简洁且固定规律的表达式,来迭代出最终的网络输出 l ⃗ \vec{l} l ,神经网络千丝万缕的符号、连接海洋,被这么简单的且重复的表达式搞定了,来,让我们向线性代数致敬!

图5假定为总共l+1层网络。

在这里插入图片描述

图5.前向传播的总过程

图5描述的是前向传播的总过程,我们可以仔细解读一下:

  • 重复的同与不同

    虽然隐藏层中是重复地做加权和+非线性激活,但是每层网络的权重矩阵 W W W、偏置 b ⃗ \vec{b} b 并不相同,各层的加权和 z ⃗ \vec{z} z 因此并非一样的运算。

  • 输出层激活函数的特殊性

    输出层的激活函数由于与目标函数有“组合效应”,因此常常根据目标函数的构造,选用搭配的激活函数,后面反向传播时会详细讨论。

  • W W W与两层网络间的线性变换的对应

    只要每次看到 W W W x ⃗ \vec{x} x 进行线性变换,请自动脑补:两层网络之间网络连接,以及加权和的生成公式。

    由于很多表达式为了追求简洁,省略了偏置 b b b的表示,但偏置 b b b可能被省略,但它一直存在。因此别忘了它。

  • σ ( W ⋅ ) \sigma(W·) σ(W)表示一层神经网络前向传播。

    一层的完整传播,必须包括 W W W σ ( ⋅ ) \sigma(·) σ()

  • 后面我们将看到RNN、LSTM里的 W W W σ ( W ⋅ ) \sigma(W·) σ(W),请自动脑补成加权和网络,或者一层完整前向传播


矩阵化表示的好处

好了,简单总结一下应用上述推导结果的好处。

  • 有利于模型的准确定义

  • 方便软件实现

  • 方便硬件的加速(AI芯片或显卡)

  • 化繁为简,给思维减负,有利于创新。

这篇关于直觉化深度学习教程——什么是前向传播的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/637556

相关文章

SpringBoot集成redisson实现延时队列教程

《SpringBoot集成redisson实现延时队列教程》文章介绍了使用Redisson实现延迟队列的完整步骤,包括依赖导入、Redis配置、工具类封装、业务枚举定义、执行器实现、Bean创建、消费... 目录1、先给项目导入Redisson依赖2、配置redis3、创建 RedissonConfig 配

深度解析Python中递归下降解析器的原理与实现

《深度解析Python中递归下降解析器的原理与实现》在编译器设计、配置文件处理和数据转换领域,递归下降解析器是最常用且最直观的解析技术,本文将详细介绍递归下降解析器的原理与实现,感兴趣的小伙伴可以跟随... 目录引言:解析器的核心价值一、递归下降解析器基础1.1 核心概念解析1.2 基本架构二、简单算术表达

深度解析Java @Serial 注解及常见错误案例

《深度解析Java@Serial注解及常见错误案例》Java14引入@Serial注解,用于编译时校验序列化成员,替代传统方式解决运行时错误,适用于Serializable类的方法/字段,需注意签... 目录Java @Serial 注解深度解析1. 注解本质2. 核心作用(1) 主要用途(2) 适用位置3

Java MCP 的鉴权深度解析

《JavaMCP的鉴权深度解析》文章介绍JavaMCP鉴权的实现方式,指出客户端可通过queryString、header或env传递鉴权信息,服务器端支持工具单独鉴权、过滤器集中鉴权及启动时鉴权... 目录一、MCP Client 侧(负责传递,比较简单)(1)常见的 mcpServers json 配置

基于C#实现PDF转图片的详细教程

《基于C#实现PDF转图片的详细教程》在数字化办公场景中,PDF文件的可视化处理需求日益增长,本文将围绕Spire.PDFfor.NET这一工具,详解如何通过C#将PDF转换为JPG、PNG等主流图片... 目录引言一、组件部署二、快速入门:PDF 转图片的核心 C# 代码三、分辨率设置 - 清晰度的决定因

Maven中生命周期深度解析与实战指南

《Maven中生命周期深度解析与实战指南》这篇文章主要为大家详细介绍了Maven生命周期实战指南,包含核心概念、阶段详解、SpringBoot特化场景及企业级实践建议,希望对大家有一定的帮助... 目录一、Maven 生命周期哲学二、default生命周期核心阶段详解(高频使用)三、clean生命周期核心阶

Java Scanner类解析与实战教程

《JavaScanner类解析与实战教程》JavaScanner类(java.util包)是文本输入解析工具,支持基本类型和字符串读取,基于Readable接口与正则分隔符实现,适用于控制台、文件输... 目录一、核心设计与工作原理1.底层依赖2.解析机制A.核心逻辑基于分隔符(delimiter)和模式匹

深度剖析SpringBoot日志性能提升的原因与解决

《深度剖析SpringBoot日志性能提升的原因与解决》日志记录本该是辅助工具,却为何成了性能瓶颈,SpringBoot如何用代码彻底破解日志导致的高延迟问题,感兴趣的小伙伴可以跟随小编一起学习一下... 目录前言第一章:日志性能陷阱的底层原理1.1 日志级别的“双刃剑”效应1.2 同步日志的“吞吐量杀手”

Unity新手入门学习殿堂级知识详细讲解(图文)

《Unity新手入门学习殿堂级知识详细讲解(图文)》Unity是一款跨平台游戏引擎,支持2D/3D及VR/AR开发,核心功能模块包括图形、音频、物理等,通过可视化编辑器与脚本扩展实现开发,项目结构含A... 目录入门概述什么是 UnityUnity引擎基础认知编辑器核心操作Unity 编辑器项目模式分类工程

spring AMQP代码生成rabbitmq的exchange and queue教程

《springAMQP代码生成rabbitmq的exchangeandqueue教程》使用SpringAMQP代码直接创建RabbitMQexchange和queue,并确保绑定关系自动成立,简... 目录spring AMQP代码生成rabbitmq的exchange and 编程queue执行结果总结s