大白话5分钟带你走进人工智能-第十节梯度下降之归一化的各种方式和必要性(5)

本文主要是介绍大白话5分钟带你走进人工智能-第十节梯度下降之归一化的各种方式和必要性(5),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

                                            第十节梯度下降之归一化的各种方式和必要性(5)

上一节中我们讲解了梯度下降的函数最优化算法和梯度下降代码过程,了解了梯度下降的代码实现过程,本节的话我们讲解一个梯度下降之前必要的数据准备,归一化。

先看一个例子,假如你收集到一个数据集,一列是年龄,一列是身高(厘米)。比如体重的数据都是60,65。身高的数据是180,185,你发现它的量纲远远大于age,这样会导致什么?比如身高是W2,体重是W1,假如要根据这些数据预测寿命,比如结果是这样的:

 

体重身高预测年龄
6018070
6518580

因为最后它们相乘相加等于你预测的年龄,那么对数据本身来说量纲比较小的数字,它会乘的W比较大一些。因为体重乘上比较小的数字w1+身高乘以比较大的数字w2,才能等于最后的年龄。这么想好像没什么问题,相当于程序给我们把数据自动修正了,身高数据大,我就自动W小点,预测也不会出问题,虽然看起来没问题,但它在梯度下降的效率上会导致一定的问题。会导致一个什么问题呢? 比如W2小,它越小,是不是越灵敏相当,那么W2动一点就会怎么样?我们先看下上面数据训练模型时如果不做归一化的损失函数的等高线如图:

等高线里面,每一个圆的损失函数是一样的。在这个例子里面,你觉得θ1(即w1)和θ2(即w2),谁是age谁是height?实际上θ2是height,θ1是age,为什么?因为W2是不是小,你动一点点,损失函数会变化的很多,所以图中θ2一点点变化,损失函数就会从一个圆变到另一个圆,所以θ2对应着身高前面的参数。那么这会导致什么问题?我们看下图中的θ1(即w1)和θ2(即w2)的更新参数:

                                                                \theta=\theta-\alpha \cdot \frac{\partial J(\theta)}{\partial(\theta)}

                                                               \frac{\partial J(\theta)}{\theta_{j}}=(h_\theta(x)-y)x_{j}

无论对于W1来说还是W2来说,(h_\theta(x)-y)x_{j}前边部分有区别吗? 没区别吧?那么体现在更新W1和W2的更新的不同,是Xj不同。在θ2的方向上,因为X2比较大,所以θ2方向每次加的都很大,而θ1方向每次加的又比较小,假如最开始在初始点那块,θ2距离自己的终点也就是最后的最优解的点其实很近,而θ1距离自己的终点很远,按理说θ1应该赶紧紧跑两步对不对?而现在变成了θ2在反复的震荡,而θ1在不着急得一步一步走,这样的话会导致你的计算效率变得特别慢。梯度下降的过程中,你想让W2是不是每一步更新更加细致一点,更微小一点,更精准一点,让W1每一步更大刀阔斧一点?所以如果量纲不一致,会导致本来需要一步一步慢慢走的这个维度W2,反倒震荡的特别厉害。W1想让它变化快一点,但X1比较小,会导致它下降的速度反倒慢了,适得其反。讲到这里,有的人会说我调控每一步下降的\theta=\theta-\alpha \cdot \frac{\partial J(\theta)}{\partial(\theta)}中的α,也就是我们的λ,是不是可以控制下每次减的幅度?这里想让大家想一个问题,λ是只有一个数还是说每个维度各有一个λ?如果每个维度各有一个λ就没这问题了,你自己单独的给它们调一下就行了,但是调参又变得复杂了,你有一千个维度,难道你还要手工设一千个λ,还要细致地调吗?不现实。这数根源就是因为只有一个λ管着我所有的W,那么需要大的反倒小了,小的反倒大了。 所以我们怎么办?

我们就需要对数据进行一个归一化。比如我原来原始数据身高是180,170,160,150,我做一个最大最小值归一化,最大最小值归一化公式是:

                                                       x^{\prime}=\frac{x-\min (x)}{\max (x)-\min (x)}

我用X减去最小的X,除以(最大的X,减去最小的X),假设这四个数,180,170,160,150。那么此时180会变成什么?你们根据这算一下。180变成1了,150变成什么了?0了,中间是0到1的一些数相当于就把所有列,如果你都执行这么一遍的话,是不是就变成了所有数都在0到1之间了。这样他们的量纲就一样了。这样我们的损失函数就会从一个椭圆特别椭的圆变成一个比较圆的圆。如下面一样:

因为各个维度的数值通过最大最小值归一化之后会让它两边的步伐速度是一致的,不会存在谁等谁的情况,所以损失函数等高线的图就近似一个相对比较圆的圆。这样会带来更快的收敛步数和更快的收敛速度。除此之外,归一化还有什么好处?对one-hot编码来说,有的维度转变成one-hot编码,比如性别转成one-hot之后男的是0-1 女的是1-0两个维度标识性别,这样相对公平,不至于男的性别是1 ,女的性别是0,这样会给机器学习一种错误的输入,男的比女的大的错误信息,因此需要转成one-hot编码。但假如有的没转成one-hot编码,比如身高,没转one_hot编码的这些维度如果经过最大最小值归一化都给它缩放到零和一之间后,这样跟经过one-hot编码的那些维度的量纲也都一致了,在训练模型的时候,经过处理过的训练集就是一堆你看不懂的数了,比如身高它就不再代表实际物理意义上的高度有多高了,但它是一个高度的评分,越近越1越代表你在这里边越高。例如170和160,经过最大值最小值归一化之后,肯定170更接近数值1。

那么当预测一条新数据的时候,怎么预测? 你还能把原始数据直接丢进去算吗?你是不是需要对新的数据要做最大最小值归一化,用谁的最大值?谁的最小值?用你的训练集中的最大值和训练集中的最小值做归一化,我们称它为经验最大值和经验最小值。好在这些事情不需要你来手工处理,只要你把normalize=true,就可以了。

                      lin_reg = LinearRegression(normalize=True)

这一切的一切底层就帮你做好了。它做的不光是最大最小值归一化,它还要做零均值化,它要把每一个X都减去这一列的平均值。为什么要这么做?比如看下面的例子:

假如你随机到图中这个点了,再接着往下,θ1需要增大减小?增大,对吧?θ2需要增大还是减小?减小。所以θ1需要增大,θ2需要减小,但θ1和θ2怎么算的?咱们看随机梯度下降,对于θ1也好,θ2也好,(h_\theta(x)-y)x_{j}(h_\theta(x)-y)这一项都一样,能影响它到底增大还是减小,是不是取决于它Xj? 所以对于θ1就把X1带进去,对于θ2就把X2代进去。通常训练集里的数据是不是都是正数?如果你不做零均值化的话,所有X都是正数,是不是所有的θ要增都增要减都减。对于这个例子,要想走到最优解,应该这样走,如图:

如果不去处理归一化的话,这会只能θ1也增θ2也增,第一步θ2先少增一点,尽量等一下θ1,θ1多走点, 甚至走过θ1的最优值,然后,θ1减,θ2也减才能走到最后最优解的那个点,它不具备同时一个参数增另一个参数减的这么一个功能。但假如你对它做一个零均值化,比如第二列X2,1.8米,1.7米,1.6米,1.5米,都减去均值后,这就变成了+1.5,+0.5,-0.5,-1.5,这会X是不是就有正有负了?有正有负了之后,是不是它就有可能进行这种有的增有的减的这种下降?所以说normalize里面至少会同时做最大最小值归一化来保证量纲一样和零均值化让所有的维度数值有大有小,这样才能获得更好的梯度下降效率。 如果你不做这些也能得到最优解,就是人家走10步你可能走15步这么一个概念,它效率更低,做了这个能够帮助你下降的更快,更好的找到这个结果。那么来一条新数据,是不是也得减去平均值,减谁的平均值?减你训练集里边的算出来平均值,能理解吗?这个也叫经验平均值。 经验平均值这个东西在深度学习里面一样要这么处理。只要用到梯度下降,就都需要这么处理。只要有梯度下降,均值归一化是必须的,没有均值归一化的话,它下降速率一定会慢好多,因为它老要走曲折的弯路。

对于有些算法,还会使用方差均值标准化来调整数据使模型训练拥有更好的性能。即:

                                                                               x^{\prime}=\frac{x-\overline{x}}{\sigma}

所以归一化方式是进行模型训练前的必要步骤,也是数据处理的关键步骤。下面一节我们将手动实现批量梯度下降和随机梯下降的方式,不调sklearn里面的api

这篇关于大白话5分钟带你走进人工智能-第十节梯度下降之归一化的各种方式和必要性(5)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:https://blog.csdn.net/LHWorldBlog/article/details/89204486
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/309479

相关文章

Linux线程之线程的创建、属性、回收、退出、取消方式

《Linux线程之线程的创建、属性、回收、退出、取消方式》文章总结了线程管理核心知识:线程号唯一、创建方式、属性设置(如分离状态与栈大小)、回收机制(join/detach)、退出方法(返回/pthr... 目录1. 线程号2. 线程的创建3. 线程属性4. 线程的回收5. 线程的退出6. 线程的取消7.

golang程序打包成脚本部署到Linux系统方式

《golang程序打包成脚本部署到Linux系统方式》Golang程序通过本地编译(设置GOOS为linux生成无后缀二进制文件),上传至Linux服务器后赋权执行,使用nohup命令实现后台运行,完... 目录本地编译golang程序上传Golang二进制文件到linux服务器总结本地编译Golang程序

Linux下删除乱码文件和目录的实现方式

《Linux下删除乱码文件和目录的实现方式》:本文主要介绍Linux下删除乱码文件和目录的实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录linux下删除乱码文件和目录方法1方法2总结Linux下删除乱码文件和目录方法1使用ls -i命令找到文件或目录

Linux在线解压jar包的实现方式

《Linux在线解压jar包的实现方式》:本文主要介绍Linux在线解压jar包的实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录linux在线解压jar包解压 jar包的步骤总结Linux在线解压jar包在 Centos 中解压 jar 包可以使用 u

Jenkins分布式集群配置方式

《Jenkins分布式集群配置方式》:本文主要介绍Jenkins分布式集群配置方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1.安装jenkins2.配置集群总结Jenkins是一个开源项目,它提供了一个容易使用的持续集成系统,并且提供了大量的plugin满

Java通过驱动包(jar包)连接MySQL数据库的步骤总结及验证方式

《Java通过驱动包(jar包)连接MySQL数据库的步骤总结及验证方式》本文详细介绍如何使用Java通过JDBC连接MySQL数据库,包括下载驱动、配置Eclipse环境、检测数据库连接等关键步骤,... 目录一、下载驱动包二、放jar包三、检测数据库连接JavaJava 如何使用 JDBC 连接 mys

C#读写文本文件的多种方式详解

《C#读写文本文件的多种方式详解》这篇文章主要为大家详细介绍了C#中各种常用的文件读写方式,包括文本文件,二进制文件、CSV文件、JSON文件等,有需要的小伙伴可以参考一下... 目录一、文本文件读写1. 使用 File 类的静态方法2. 使用 StreamReader 和 StreamWriter二、二进

java实现docker镜像上传到harbor仓库的方式

《java实现docker镜像上传到harbor仓库的方式》:本文主要介绍java实现docker镜像上传到harbor仓库的方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录1. 前 言2. 编写工具类2.1 引入依赖包2.2 使用当前服务器的docker环境推送镜像2.2

springboot项目打jar制作成镜像并指定配置文件位置方式

《springboot项目打jar制作成镜像并指定配置文件位置方式》:本文主要介绍springboot项目打jar制作成镜像并指定配置文件位置方式,具有很好的参考价值,希望对大家有所帮助,如有错误... 目录一、上传jar到服务器二、编写dockerfile三、新建对应配置文件所存放的数据卷目录四、将配置文

gitlab安装及邮箱配置和常用使用方式

《gitlab安装及邮箱配置和常用使用方式》:本文主要介绍gitlab安装及邮箱配置和常用使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1.安装GitLab2.配置GitLab邮件服务3.GitLab的账号注册邮箱验证及其分组4.gitlab分支和标签的