PyTorch深度学习实践 3.梯度下降算法--＞mini-batch stochastic gradient descent

本文主要是介绍PyTorch深度学习实践 3.梯度下降算法--＞mini-batch stochastic gradient descent，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

分治法

w1和w2
假设横竖都是64
横竖都分成4份，一共16份。
第一次在这16份里，找出比较小的点，
再来几轮，基本就OK了。
从原来的16x16变成了16+16
在这里插入图片描述

贪心法

梯度下降法，局部最优，实际上，大家发现神经网络里并没有很多的局部最优点

鞍点g=0，无法迭代了
在这里插入图片描述

import numpy as np
import matplotlib.pyplot as pltxxl=0.01w=1.0# 定义模型
def forward(x):return x*wdef cost(xs,ys):cost=0for x,y in zip(xs,ys):y_prediction=forward(x)cost+=(y_prediction-y)**2return cost/len(xs)def gradient(xs,ys):grad=0for x,y in zip(xs,ys):y_prediction = forward(x)grad+=2 * x * (y_prediction - y)return grad/len(xs)# 定义训练集
x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]print('Prediciton(before training)',4,forward(4))for epoch in range(100):cost_val=cost(x_data,y_data)grad=gradient(x_data,y_data)w=w-xxl*gradprint("progress:",epoch,"w=",w,"loss=",cost_val)
print('Prediction(after training)',4,forward(4))

在这里插入图片描述

指数加权均值，更平滑
在这里插入图片描述
一定要收敛，发散说明失败了，可能是学习率太大

在这里插入图片描述
随机梯度下降，可以克服鞍点

项目	速度	效果（鞍点）
梯度下降	快（因为可以并行 xi和xi+1的函数值无关）	差
随机梯度下降	慢（只能串行，因为w与上一个有关）	好

所以折中
批量随机梯度下降batch
mini-batch stochastic gradient descent
在这里插入图片描述

# 随机梯度下降
import numpy as np
import matplotlib.pyplot as pltxxl=0.01w=1.0# 定义模型
def forward(x):return x*wdef Loss_Function(x,y):y_prediction=forward(x)return (y_prediction-y)**2def gradient(x,y):y_prediction = forward(x)return 2 * x *(y_prediction-y)# 定义训练集
x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]print('Prediciton(before training)',4,forward(4))for epoch in range(100):for x,y in zip(x_data,y_data):grad=gradient(x,y)w=w-xxl*gradprint('\tgradient:',x,y,grad)l=Loss_Function(x,y)print("progress:",epoch,"w=",w,"loss=",l)
print('Prediction(after training)',4,forward(4))