深度学习-自动求导

2024-04-26 13:04
文章标签 学习 深度 自动 求导

本文主要是介绍深度学习-自动求导,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • 向量链式法则
    • 标量链式法则
  • 拓展到向量
    • 例题1
    • 例题2
  • 符号求导
  • 数值求导
  • 自动求导
    • 计算图
    • 自动求导的两种模式
      • 链式法则
      • 正向累积(从x出发)
      • 反向累积(反向传递--先计算最终的函数即y)
      • 反向累积总结
  • 自动求导
  • 计算y关于x的梯度,使用requires_grad(True)
    • 计算y
  • 通过调用反向传播函数来自动计算y关于x每个分量的梯度
  • PyTorch会累积梯度,使用zero_()函数清除梯度
  • 批量中每个样本单独计算的偏导数之和
  • 将某些计算移动到记录的计算图之外
  • 即使构建函数的计算图通过Python控制流仍可以计算变量的梯度
  • 问题
    • 多个loss(损失函数)分别反向的时候是不是需要累积梯度?
    • 需要正向和反向都要算一遍吗?
    • 为什么Pytorch会默认累积梯度?
    • 为什么获取.grad前需要backward?

向量链式法则

标量链式法则

在这里插入图片描述




拓展到向量

在这里插入图片描述




例题1

在这里插入图片描述

过程:
在这里插入图片描述


在这里插入图片描述


在这里插入图片描述





例题2

在这里插入图片描述

过程:
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
然后将分解的回代




符号求导

在这里插入图片描述

数值求导

在这里插入图片描述

自动求导

自动求导计算一个函数在指定值上的导数

计算图

将代码分解为操作子
将计算表示成一个无环图
在这里插入图片描述
显示构造
在这里插入图片描述
隐式构造
在这里插入图片描述




自动求导的两种模式

链式法则

在这里插入图片描述

正向累积(从x出发)

在这里插入图片描述

反向累积(反向传递–先计算最终的函数即y)

在这里插入图片描述

这里的反向先计算z的函数
在这里插入图片描述




反向累积总结

构造计算图
前向:执行图,存储中间结果
反向:从相反方向执行图
去除不需要的枝

在这里插入图片描述

计算复杂度:O(n),n是操作子个数
通常正向和方向的代价类似
内存复杂度:O(n),因为需要存储正向的所有中间结果

正向累积:
它的内存复杂度是O(1),即不管多深我不需要存储它的结果,而反向累积则需要存储。

反向从根节点向下扫,可以保证每个节点只扫一次;
正向从叶节点向上扫,会导致上层节点可能需要被重复扫多次。

(正向中 子节点比父节点先计算,因此也无法像反向那样把本节点的计算结果传给每个子节点。)




自动求导

假设我们对函数 y=2 x T x^T xTx 求导

import torch
x = torch.arange(4.0)
print(x)

结果:在这里插入图片描述




计算y关于x的梯度,使用requires_grad(True)

import torch
x = torch.arange(4.0, requires_grad=True)
print(x.grad)

结果:在这里插入图片描述

计算y

import torch
x = torch.arange(4.0, requires_grad=True)
y = 2 * torch.dot(x, x)
print(y)

结果:在这里插入图片描述




通过调用反向传播函数来自动计算y关于x每个分量的梯度

import torch
x = torch.arange(4.0, requires_grad=True)
print(x)
y = 2 * torch.dot(x, x)
y.backward() #求导
print(x.grad) #x.grad访问导数

结果:在这里插入图片描述
y=2 x 2 x^2 x2然后使用求导函数backward()实质是y导=4x(下面验证)。

import torch
x = torch.arange(4.0, requires_grad=True)
y = 2 * torch.dot(x, x)
y.backward() #求导
print(x.grad == 4*x)

结果:在这里插入图片描述




PyTorch会累积梯度,使用zero_()函数清除梯度

import torch
x = torch.arange(4.0, dtype=torch.float32, requires_grad=True)
y = 2 * torch.dot(x, x)
y.backward()
print(x.grad)x.grad.zero_() #梯度清零
y = x.sum()
y.backward() #求导
print(x.grad)

因为求向量的sum()所以梯度是全1
y是标量
y是对x的的求和:y= x 1 x_1 x1+ x 2 x_2 x2+ x 3 x_3 x3+ x 4 x_4 x4
对y进行x的偏导:dy/ d x 1 dx_1 dx1,dy/ d x 2 dx_2 dx2,dy/ d x 3 dx_3 dx3,dy/ d x 4 dx_4 dx4

在这里插入图片描述




批量中每个样本单独计算的偏导数之和

import torch
x = torch.arange(4.0, dtype=torch.float32, requires_grad=True)
y = 2 * torch.dot(x, x)
y.backward()
print(x.grad)x.grad.zero_() #梯度清零,如果不清零执行y=x*x然后对y求和再求导可以通过x.grad查看得[0.,1.,4.,*.]
y = x*x #x是向量,y即向量
print(y) #输出查看
y.sum().backward() #求导
print(x.grad)

梯度(求导)清零:必须先存在梯度,如果没有y.backward()则x.grad.zero_()会报错。
结果:在这里插入图片描述




将某些计算移动到记录的计算图之外

import torch
x = torch.arange(4.0, dtype=torch.float32, requires_grad=True)
y = 2 * torch.dot(x, x)
y.backward()
print(x.grad)x.grad.zero_() #梯度清零,如果不清零执行y=x*x然后对y求和再求导可以通过x.grad查看得[0.,1.,4.,*.]
y = x * x #x是向量,y即向量
print(y) #输出查看
u = y.detach()#把y当作一个常数,而不是关于x的函数,把它做成u
z = u * x #相当于z=常数*x
z.sum().backward()
print(x.grad == u)

结果:这里的z就是为了后续求导检查是否与detach()后一致。
在这里插入图片描述


import torch
x = torch.arange(4.0, dtype=torch.float32, requires_grad=True)
y = 2 * torch.dot(x, x)
y.backward()
print(x.grad)x.grad.zero_() #梯度清零,如果不清零执行y=x*x然后对y求和再求导可以通过x.grad查看得[0.,1.,4.,*.]
y = x * x #x是向量,y即向量
y.sum().backward()
print(x.grad == 2 * x)

结果:
在这里插入图片描述




即使构建函数的计算图通过Python控制流仍可以计算变量的梯度

import torchdef f(a):b = a * 2while b.norm() < 1000:#norm()计算张量的范数, 计算了张量 b 的L2范数b = b * 2if b.sum(): #检查 b 所有元素的总和是否非零c = b #非0的时候的操作else:c = 100 * breturn ca = torch.randn(size=(), requires_grad=True)
d = f(a)
d.backward()
print(a.grad == d / a) #梯度验证

结果:在这里插入图片描述




问题

多个loss(损失函数)分别反向的时候是不是需要累积梯度?

是的

需要正向和反向都要算一遍吗?

是的

为什么Pytorch会默认累积梯度?

设计上的理念,通常一个大的批量无法一次计算出,所以分为多次,然后累加起来。

为什么获取.grad前需要backward?

不进行backward时不会计算梯度,因为计算梯度是一个很“贵”的事情

这篇关于深度学习-自动求导的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/937658

相关文章

一文详解MySQL如何设置自动备份任务

《一文详解MySQL如何设置自动备份任务》设置自动备份任务可以确保你的数据库定期备份,防止数据丢失,下面我们就来详细介绍一下如何使用Bash脚本和Cron任务在Linux系统上设置MySQL数据库的自... 目录1. 编写备份脚本1.1 创建并编辑备份脚本1.2 给予脚本执行权限2. 设置 Cron 任务2

MyBatis Plus 中 update_time 字段自动填充失效的原因分析及解决方案(最新整理)

《MyBatisPlus中update_time字段自动填充失效的原因分析及解决方案(最新整理)》在使用MyBatisPlus时,通常我们会在数据库表中设置create_time和update... 目录前言一、问题现象二、原因分析三、总结:常见原因与解决方法对照表四、推荐写法前言在使用 MyBATis

Go学习记录之runtime包深入解析

《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,:本文主要介绍Go学习记录之runtime包的... 目录前言:一、runtime包内容学习1、作用:① Goroutine和并发控制:② 垃圾回收:③ 栈和

Python使用smtplib库开发一个邮件自动发送工具

《Python使用smtplib库开发一个邮件自动发送工具》在现代软件开发中,自动化邮件发送是一个非常实用的功能,无论是系统通知、营销邮件、还是日常工作报告,Python的smtplib库都能帮助我们... 目录代码实现与知识点解析1. 导入必要的库2. 配置邮件服务器参数3. 创建邮件发送类4. 实现邮件

Python中文件读取操作漏洞深度解析与防护指南

《Python中文件读取操作漏洞深度解析与防护指南》在Web应用开发中,文件操作是最基础也最危险的功能之一,这篇文章将全面剖析Python环境中常见的文件读取漏洞类型,成因及防护方案,感兴趣的小伙伴可... 目录引言一、静态资源处理中的路径穿越漏洞1.1 典型漏洞场景1.2 os.path.join()的陷

Android学习总结之Java和kotlin区别超详细分析

《Android学习总结之Java和kotlin区别超详细分析》Java和Kotlin都是用于Android开发的编程语言,它们各自具有独特的特点和优势,:本文主要介绍Android学习总结之Ja... 目录一、空安全机制真题 1:Kotlin 如何解决 Java 的 NullPointerExceptio

Python使用pynput模拟实现键盘自动输入工具

《Python使用pynput模拟实现键盘自动输入工具》在日常办公和软件开发中,我们经常需要处理大量重复的文本输入工作,所以本文就来和大家介绍一款使用Python的PyQt5库结合pynput键盘控制... 目录概述:当自动化遇上可视化功能全景图核心功能矩阵技术栈深度效果展示使用教程四步操作指南核心代码解析

SpringBoot实现文件记录日志及日志文件自动归档和压缩

《SpringBoot实现文件记录日志及日志文件自动归档和压缩》Logback是Java日志框架,通过Logger收集日志并经Appender输出至控制台、文件等,SpringBoot配置logbac... 目录1、什么是Logback2、SpringBoot实现文件记录日志,日志文件自动归档和压缩2.1、

SpringCloud使用Nacos 配置中心实现配置自动刷新功能使用

《SpringCloud使用Nacos配置中心实现配置自动刷新功能使用》SpringCloud项目中使用Nacos作为配置中心可以方便开发及运维人员随时查看配置信息,及配置共享,并且Nacos支持配... 目录前言一、Nacos中集中配置方式?二、使用步骤1.使用$Value 注解2.使用@Configur

Golang实现Redis分布式锁(Lua脚本+可重入+自动续期)

《Golang实现Redis分布式锁(Lua脚本+可重入+自动续期)》本文主要介绍了Golang分布式锁实现,采用Redis+Lua脚本确保原子性,持可重入和自动续期,用于防止超卖及重复下单,具有一定... 目录1 概念应用场景分布式锁必备特性2 思路分析宕机与过期防止误删keyLua保证原子性可重入锁自动