机器学习 从矩阵和概率的角度解释最小均方误差函数

2023-12-05 12:08

本文主要是介绍机器学习 从矩阵和概率的角度解释最小均方误差函数,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

最小均方误差函数

之前的讲义里, 我们提到了最小均方误差函数,给出一组有 m 个样本的训练集,我们希望找到合适的参数 θ, 使得预测值 hθ(x) 与目标值尽可能接近。为了估计参数 θ , 我们定义如下的 cost function:

J(θ)=12i=1m(hθ(xi)yi)2

这个 cost function 就是最小均方误差函数,第一讲里面,我们用梯度下降算法估计参数 θ , 而第二讲里面我们提到了矩阵的基本运算及矩阵的求导,现在就从矩阵的角度求参数 θ 的解析解。

矩阵的解析解

给定一组训练样本, D={(xi,yi)|xiRn,yiR}mi=1 , xi 是维数为 n 的输入特征(默认为列向量),yi 是连续的实数值, m 表示样本数,则输入特征可以用矩阵表示为:

X=[x1,x2,,xm]T

输出变量可以用一个向量表示为:

y=[y1,y2,,ym]T

而我们从第一讲已经知道, hθ(xi)=xTiθ , 则我们可以得到如下的表达式:
Xθy=xT1θxTmθy1ym=hθ(x1)y1hθ(xm)ym

则最小均方误差函数可以表示为:
J(θ)=12i=1m(hθ(xi)yi)2=12(Xθy)T(Xθy)

利用第二讲的矩阵基本运算将上式展开,可以得到:
J(θ)=12θTXTXθθTXTyyTXθ+yTy

利用第二讲的矩阵求导,可以得到 J(θ) θ 的偏导数为:
J(θ)θ=12(XTXθ+XTXθ2XTy)=XTXθXTy

令该偏导数为0,则可以得到:
XTXθ=XTy

最终可以得到参数 θ 的解析解为:
θ=(XTX)1XTy

如果矩阵 (XTX)1 可逆,则该解就是全局最优解,有的时候,该矩阵不一定可逆,就是我们常常遇到的样本数远远大于参数的个数即 mn ,那么参数 θ 就只能得到近似解。

从最大似然估计到最小均方误差

有的时候我们会考虑,在做回归问题的时候,为什么用最小均方误差函数作为 \textbf{cost function}, 为什么不用其它的函数。接下来,我们从概率分布的角度去考虑这个问题,随后我们会发现,最小均方误差函数从某种意义上来说,
是从最大似然估计中演化出来的。
我们先假设目标值与输入变量之间存在以下关系:

yi=θTxi+ϵi

其中, ϵi 是一个误差项,表示由于一些我们没有考虑到的因素导致估计值域目标值之间出现得偏差,我们进一步假设这些误差项是
独立同分布的(independently and identically distributed), 并且是均值为0,方差为 σ2 的高斯分布(这是自然界非常常见的一种分布)。我们可以表示为
ϵiN(0,σ2) , 其概率密度函数为:
p(ϵi)=12πσexp(ϵ2i2σ2)

将式代入,可以得到:
p(yi|xi;θ)=12πσexp((yiθTxi)22σ2)

这里需要注意, p(yi|xi;θ) 表示的是 yi xi 的条件概率, θ 是参数, xi 是随机变量,两者之间用 ";" 隔开,不能用
"," 隔开。当我们考虑所有的样本时,则所有的输出变量的分布表示为: p(y|X;θ) , 我们可以建立一个关于参数 θ 的似然函数:
L(θ)=L(θ;X,y)=p(y|X;θ)

因为 ϵi 是独立同分布的,我们可以得到:
L(θ)=i=1mp(yi|xi;θ)=i=1m12πσexp((yiθTxi)22σ2)

最大似然估计原则告诉我们,要选择参数 θ 使得概率要尽可能地高。所以我们可以建立如下的优化函数:
maxθ[i=1m12πσexp((yiθTxi)22σ2)]

上式是一个单调函数,根据单调函数的传递性原则,我们可以对上式取对数,则可以得到:
l(θ)=log(L(θ))=logi=1m12πσexp((yiθTxi)22σ2)=i=1mlog12πσexp((yiθTxi)22σ2)=mlog12πσ1σ212i=1m(yiθTxi)2

因此,要使上式最大化,则只要使其中的二次项最小化,即
minθ12i=1m(hθ(xi)yi)2

我们可以看到,从概率出发,最小均方误差是最大似然估计非常自然的一种延伸,两者最后可以完美的统一起来。

参考文献

Andrew Ng, “Machine Learning”, Stanford University.

这篇关于机器学习 从矩阵和概率的角度解释最小均方误差函数的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/457509

相关文章

C++统计函数执行时间的最佳实践

《C++统计函数执行时间的最佳实践》在软件开发过程中,性能分析是优化程序的重要环节,了解函数的执行时间分布对于识别性能瓶颈至关重要,本文将分享一个C++函数执行时间统计工具,希望对大家有所帮助... 目录前言工具特性核心设计1. 数据结构设计2. 单例模式管理器3. RAII自动计时使用方法基本用法高级用法

GO语言中函数命名返回值的使用

《GO语言中函数命名返回值的使用》在Go语言中,函数可以为其返回值指定名称,这被称为命名返回值或命名返回参数,这种特性可以使代码更清晰,特别是在返回多个值时,感兴趣的可以了解一下... 目录基本语法函数命名返回特点代码示例命名特点基本语法func functionName(parameters) (nam

Python Counter 函数使用案例

《PythonCounter函数使用案例》Counter是collections模块中的一个类,专门用于对可迭代对象中的元素进行计数,接下来通过本文给大家介绍PythonCounter函数使用案例... 目录一、Counter函数概述二、基本使用案例(一)列表元素计数(二)字符串字符计数(三)元组计数三、C

Unity新手入门学习殿堂级知识详细讲解(图文)

《Unity新手入门学习殿堂级知识详细讲解(图文)》Unity是一款跨平台游戏引擎,支持2D/3D及VR/AR开发,核心功能模块包括图形、音频、物理等,通过可视化编辑器与脚本扩展实现开发,项目结构含A... 目录入门概述什么是 UnityUnity引擎基础认知编辑器核心操作Unity 编辑器项目模式分类工程

Python中的filter() 函数的工作原理及应用技巧

《Python中的filter()函数的工作原理及应用技巧》Python的filter()函数用于筛选序列元素,返回迭代器,适合函数式编程,相比列表推导式,内存更优,尤其适用于大数据集,结合lamb... 目录前言一、基本概念基本语法二、使用方式1. 使用 lambda 函数2. 使用普通函数3. 使用 N

MySQL中REPLACE函数与语句举例详解

《MySQL中REPLACE函数与语句举例详解》在MySQL中REPLACE函数是一个用于处理字符串的强大工具,它的主要功能是替换字符串中的某些子字符串,:本文主要介绍MySQL中REPLACE函... 目录一、REPLACE()函数语法:参数说明:功能说明:示例:二、REPLACE INTO语句语法:参数

python中update()函数的用法和一些例子

《python中update()函数的用法和一些例子》update()方法是字典对象的方法,用于将一个字典中的键值对更新到另一个字典中,:本文主要介绍python中update()函数的用法和一些... 目录前言用法注意事项示例示例 1: 使用另一个字典来更新示例 2: 使用可迭代对象来更新示例 3: 使用

Python学习笔记之getattr和hasattr用法示例详解

《Python学习笔记之getattr和hasattr用法示例详解》在Python中,hasattr()、getattr()和setattr()是一组内置函数,用于对对象的属性进行操作和查询,这篇文章... 目录1.getattr用法详解1.1 基本作用1.2 示例1.3 原理2.hasattr用法详解2.

Python lambda函数(匿名函数)、参数类型与递归全解析

《Pythonlambda函数(匿名函数)、参数类型与递归全解析》本文详解Python中lambda匿名函数、灵活参数类型和递归函数三大进阶特性,分别介绍其定义、应用场景及注意事项,助力编写简洁高效... 目录一、lambda 匿名函数:简洁的单行函数1. lambda 的定义与基本用法2. lambda

Python 函数详解:从基础语法到高级使用技巧

《Python函数详解:从基础语法到高级使用技巧》本文基于实例代码,全面讲解Python函数的定义、参数传递、变量作用域及类型标注等知识点,帮助初学者快速掌握函数的使用技巧,感兴趣的朋友跟随小编一起... 目录一、函数的基本概念与作用二、函数的定义与调用1. 无参函数2. 带参函数3. 带返回值的函数4.