PyTorch深度学习实践 3.梯度下降算法-->mini-batch stochastic gradient descent

本文主要是介绍PyTorch深度学习实践 3.梯度下降算法-->mini-batch stochastic gradient descent,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

分治法

w1和w2
假设横竖都是64
横竖都分成4份,一共16份。
第一次在这16份里,找出比较小的点,
再来几轮,基本就OK了。
从原来的16x16变成了16+16
在这里插入图片描述

贪心法

梯度下降法,局部最优,实际上,大家发现神经网络里并没有很多的局部最优点

鞍点g=0,无法迭代了
在这里插入图片描述
在这里插入图片描述

import numpy as np
import matplotlib.pyplot as pltxxl=0.01w=1.0# 定义模型
def forward(x):return x*wdef cost(xs,ys):cost=0for x,y in zip(xs,ys):y_prediction=forward(x)cost+=(y_prediction-y)**2return cost/len(xs)def gradient(xs,ys):grad=0for x,y in zip(xs,ys):y_prediction = forward(x)grad+=2 * x * (y_prediction - y)return grad/len(xs)# 定义训练集
x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]print('Prediciton(before training)',4,forward(4))for epoch in range(100):cost_val=cost(x_data,y_data)grad=gradient(x_data,y_data)w=w-xxl*gradprint("progress:",epoch,"w=",w,"loss=",cost_val)
print('Prediction(after training)',4,forward(4))

在这里插入图片描述

指数加权均值,更平滑
在这里插入图片描述
一定要收敛,发散说明失败了,可能是学习率太大

在这里插入图片描述
随机梯度下降,可以克服鞍点
在这里插入图片描述
在这里插入图片描述

项目速度效果(鞍点)
梯度下降快(因为可以并行 xi和xi+1的函数值无关)
随机梯度下降慢(只能串行,因为w与上一个有关)

所以折中
批量随机梯度下降batch
mini-batch stochastic gradient descent
在这里插入图片描述

# 随机梯度下降
import numpy as np
import matplotlib.pyplot as pltxxl=0.01w=1.0# 定义模型
def forward(x):return x*wdef Loss_Function(x,y):y_prediction=forward(x)return (y_prediction-y)**2def gradient(x,y):y_prediction = forward(x)return 2 * x *(y_prediction-y)# 定义训练集
x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]print('Prediciton(before training)',4,forward(4))for epoch in range(100):for x,y in zip(x_data,y_data):grad=gradient(x,y)w=w-xxl*gradprint('\tgradient:',x,y,grad)l=Loss_Function(x,y)print("progress:",epoch,"w=",w,"loss=",l)
print('Prediction(after training)',4,forward(4))

在这里插入图片描述

这篇关于PyTorch深度学习实践 3.梯度下降算法-->mini-batch stochastic gradient descent的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/419737

相关文章

Java中Redisson 的原理深度解析

《Java中Redisson的原理深度解析》Redisson是一个高性能的Redis客户端,它通过将Redis数据结构映射为Java对象和分布式对象,实现了在Java应用中方便地使用Redis,本文... 目录前言一、核心设计理念二、核心架构与通信层1. 基于 Netty 的异步非阻塞通信2. 编解码器三、

JDK21对虚拟线程的几种用法实践指南

《JDK21对虚拟线程的几种用法实践指南》虚拟线程是Java中的一种轻量级线程,由JVM管理,特别适合于I/O密集型任务,:本文主要介绍JDK21对虚拟线程的几种用法,文中通过代码介绍的非常详细,... 目录一、参考官方文档二、什么是虚拟线程三、几种用法1、Thread.ofVirtual().start(

Java HashMap的底层实现原理深度解析

《JavaHashMap的底层实现原理深度解析》HashMap基于数组+链表+红黑树结构,通过哈希算法和扩容机制优化性能,负载因子与树化阈值平衡效率,是Java开发必备的高效数据结构,本文给大家介绍... 目录一、概述:HashMap的宏观结构二、核心数据结构解析1. 数组(桶数组)2. 链表节点(Node

Java 虚拟线程的创建与使用深度解析

《Java虚拟线程的创建与使用深度解析》虚拟线程是Java19中以预览特性形式引入,Java21起正式发布的轻量级线程,本文给大家介绍Java虚拟线程的创建与使用,感兴趣的朋友一起看看吧... 目录一、虚拟线程简介1.1 什么是虚拟线程?1.2 为什么需要虚拟线程?二、虚拟线程与平台线程对比代码对比示例:三

从基础到高级详解Go语言中错误处理的实践指南

《从基础到高级详解Go语言中错误处理的实践指南》Go语言采用了一种独特而明确的错误处理哲学,与其他主流编程语言形成鲜明对比,本文将为大家详细介绍Go语言中错误处理详细方法,希望对大家有所帮助... 目录1 Go 错误处理哲学与核心机制1.1 错误接口设计1.2 错误与异常的区别2 错误创建与检查2.1 基础

Python函数作用域与闭包举例深度解析

《Python函数作用域与闭包举例深度解析》Python函数的作用域规则和闭包是编程中的关键概念,它们决定了变量的访问和生命周期,:本文主要介绍Python函数作用域与闭包的相关资料,文中通过代码... 目录1. 基础作用域访问示例1:访问全局变量示例2:访问外层函数变量2. 闭包基础示例3:简单闭包示例4

深入理解Mysql OnlineDDL的算法

《深入理解MysqlOnlineDDL的算法》本文主要介绍了讲解MysqlOnlineDDL的算法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小... 目录一、Online DDL 是什么?二、Online DDL 的三种主要算法2.1COPY(复制法)

springboot依靠security实现digest认证的实践

《springboot依靠security实现digest认证的实践》HTTP摘要认证通过加密参数(如nonce、response)验证身份,避免明文传输,但存在密码存储风险,相比基本认证更安全,却因... 目录概述参数Demopom.XML依赖Digest1Application.JavaMyPasswo

分析 Java Stream 的 peek使用实践与副作用处理方案

《分析JavaStream的peek使用实践与副作用处理方案》StreamAPI的peek操作是中间操作,用于观察元素但不终止流,其副作用风险包括线程安全、顺序混乱及性能问题,合理使用场景有限... 目录一、peek 操作的本质:有状态的中间操作二、副作用的定义与风险场景1. 并行流下的线程安全问题2. 顺

Java 结构化并发Structured Concurrency实践举例

《Java结构化并发StructuredConcurrency实践举例》Java21结构化并发通过作用域和任务句柄统一管理并发生命周期,解决线程泄漏与任务追踪问题,提升代码安全性和可观测性,其核心... 目录一、结构化并发的核心概念与设计目标二、结构化并发的核心组件(一)作用域(Scopes)(二)任务句柄