【机器学习基础】总论

2024-04-05 04:38
文章标签 基础 学习 机器 总论

本文主要是介绍【机器学习基础】总论,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本系列为《模式识别与机器学习》的读书笔记。

一, 概率论

1,离散型随机变量概率

假设随机变量 X X X 可以取任意 的 x i x_i xi ,其中 i = 1 , …   . , M i = 1, \dots. , M i=1,.,M ,并且随机变量 Y Y Y 可以取任意的 y j y_j yj ,其中 j = 1 , … , L j = 1,\dots , L j=1,,L。考虑 N N N 次试验,其中我们对 X X X Y Y Y 都进⾏取样, 把 X = x i X = x_i X=xi Y = y j Y = y_j Y=yj 的试验的数量记作 n i j n_{ij} nij ,并且,把 X X X 取值 x i x_i xi (与 Y Y Y 的取值⽆关)的试验的数量记作 c i c_i ci ,类似地,把 Y Y Y 取值 y j y_j yj 的试验的数量记作 r j r_j rj

X X X 取值 x i x_i xi Y Y Y 取值 y j y_j yj 的概率被记作 p ( X = x i , Y = y j ) p(X = x_i , Y = y_j ) p(X=xi,Y=yj), 被称为 X = x i X = x_i X=xi Y = y j Y = y_j Y=yj联合概率joint probability)。它的计算⽅法为落在单元格 i , j i, j i,j 的点的数量与点的总数的⽐值,即:
p ( X = x i , Y = y i ) = n i j N (1.5) p\left(X=x_{i}, Y=y_{i}\right)=\frac{n_{i j}}{N}\tag{1.5} p(X=xi,Y=yi)=Nnij(1.5)
如图1.15所示,联合概率的计算方法。
联合概率计算
类似地, X X X 取值 x i x_i xi (与 Y Y Y 取值无关)的概率被记作 p ( X = x i ) p(X = x_i ) p(X=xi) ,也称为边缘概率marginal probability),计算⽅法为落在列 i i i上的点的数量与点的总数的⽐值,即:
p ( X = x i ) = c j N (1.6) p\left(X=x_{i}\right)=\frac{c_{j}}{N}\tag{1.6} p(X=xi)=Ncj(1.6)
由于图1.15中列 i i i 上的实例总数就是这列的所有单元格中实例的数量之和,即 c i = ∑ j n i j c_{i}=\sum_{j} n_{i j} ci=jnij,因此根据公式(1.5)和公式(1.6),我们可以得到概率的加和规则sun rule),即:
p ( X = x j ) = ∑ j = 1 L p ( X = x i , Y = y j ) (1.7) p\left(X=x_{j}\right)=\sum_{j=1}^{L} p\left(X=x_{i}, Y=y_{j}\right)\tag{1.7} p(X=xj)=j=1Lp(X=xi,Y=yj)(1.7)
如果我们只考虑那些 X = x i X = x_i X=xi 的实例, 那么这些实例中 Y = y j Y = y_j Y=yj 的实例所占的⽐例被写成 p ( Y = y j ∣ X = x i ) p(Y = y_j | X = x_i) p(Y=yjX=xi),被称为给定 X = x i X = x_i X=xi Y = y j Y = y_j Y=yj条件概率conditional probability),其计算⽅式为:计算落在单元格 i , j i, j i,j 的点的数量列 i i i 的点的数量的⽐值,即:
p ( Y = y j ∣ X = x i ) = n i j c i (1.8) p\left(Y=y_{j} | X=x_{i}\right)=\frac{n_{i j}}{c_{i}}\tag{1.8} p(Y=yjX=xi)=cinij(1.8)
从公式(1.5)、公式(1.6)、公式(1.8)可以推导出概率的乘积规则product rule),即:
p ( X = x i , Y = y j ) = n i j N = n i j c i ⋅ c i N = p ( Y = y j ∣ X = x i ) p ( X = x i ) (1.9) p\left(X=x_{i}, Y=y_{j}\right)=\frac{n_{i j}}{N}=\frac{n_{i j}}{c_{i}} \cdot \frac{c_{i}}{N}=p\left(Y=y_{j} | X=x_{i}\right) p\left(X=x_{i}\right) \tag{1.9} p(X=xi,Y=yj)=Nnij=cinijNci=p(Y=yjX=xi)p(X=xi)(1.9)

根据乘积规则,以及对称性 p ( X , Y ) = p ( Y , X ) p(X, Y ) = p(Y, X) p(X,Y)=p(Y,X),我们⽴即得到了下⾯的两个条件概率之间的关系,称为贝叶斯定理Bayes' theorem)即:
p ( Y ∣ X ) = p ( X ∣ Y ) p ( Y ) p ( X ) (1.10) p(Y | X)=\frac{p(X | Y) p(Y)}{p(X)}\tag{1.10} p(YX)=p(X)p(XY)p(Y)(1.10)

贝叶斯定理Bayes' theorem),在模式识别和机器学习领域扮演者中⼼⾓⾊。使⽤加和规则,贝叶斯定理中的分母可以⽤出现在分⼦中的项表⽰,这样就可以把分母看作归一常数,即:
p ( X ) = ∑ Y p ( X ∣ Y ) p ( Y ) (1.11) p(X)=\sum_{Y} p(X|Y) p(Y)\tag{1.11} p(X)=Yp(XY)p(Y)(1.11)

如果两个变量的联合分布可以分解成两个边缘分布的乘积,即 p ( X , Y ) = p ( X ) p ( Y ) p(X, Y) = p(X)p(Y) p(X,Y)=p(X)p(Y), 那么我们说 X X X Y Y Y 相互独⽴independent)。

2,概率密度

如果⼀个实值变量x的概率 落在区间 ( x , x + δ x ) (x, x + \delta x) (x,x+δx) 的概率由 p ( x ) δ x p(x)\delta x p(x)δx 给出( δ x → 0 \delta x \to 0 δx0), 那么 p ( x ) p(x) p(x) 叫做 x x x概率密度probability density)。 x x x 位于区间 ( a , b ) (a, b) (a,b) 的概率:

p ( x ∈ ( a , b ) ) = ∫ a b p ( x ) d x (1.12) p(x \in(a, b))=\int_{a}^{b} p(x) \mathrm{d}x\tag{1.12} p(x(a,b))=abp(x)dx(1.12)
如图1.16,概率密度函数。
离散型变量的概率与概率密度函数
由于概率是⾮负的,并且 x x x 的值⼀定位于实数轴上得某个位置,因此概率密度⼀定满⾜下⾯两个条件

1) p ( x ) ≥ 0 p(x) \geq 0 p(x)0

  1. ∫ − ∞ ∞ p ( x ) d x = 1 \int_{-\infty}^{\infty} p(x) \mathrm{d} x=1 p(x)dx=1

在变量以⾮线性的形式变化的情况下,概率密度函数通过Jacobian因⼦变换为与简单的函数不同的形式。

例如,假设我们考虑⼀个变量的变化 x = g ( y ) x = g(y) x=g(y), 那么函数 f ( x ) f(x) f(x) 就变成 了 f ~ ( y ) = f ( g ( y ) ) \tilde{f}(y)=f(g(y)) f~(y)=f(g(y))。现在让我们考虑⼀个概率密度函数 p x ( x ) p_x (x) px(x),它对应于⼀个关于新变量 y y y 的密度函数 p y ( y ) p_y (y) py(y),对于很⼩的 δ x \delta x δx 的值,落在区间 ( x , x + δ x ) (x, x + \delta x) (x,x+δx) 内的观测会被变换到区间 ( y , y + δ y ) (y, y + \delta y) (y,y+δy) 中。其中 p x ( x ) δ x ≃ p y ( y ) δ y p_{x}(x) \delta x \simeq p_{y}(y) \delta y px(x)δxpy(y)δy ,因此有:
p y ( y ) = p x ( x ) ∣ d x d y ∣ = p x ( g ( y ) ) ∣ g ′ ( y ) ∣ (1.13) p_{y}(y)=p_{x}(x)\left|\frac{\mathrm{d} x}{\mathrm{d} y}\right|=p_{x}(g(y))\left|g^{\prime}(y)\right|\tag{1.13} py(y)=px(x)dydx=px(g(y))g(y)(1.13)
位于区间 ( − ∞ , z ) (−\infty, z) (,z) x x x 的概率由累积分布函数cumulative distribution function)给出。 定义为:
P ( z ) = ∫ − ∞ z p ( x ) d x (1.14) P(z)=\int_{-\infty}^{z} p(x) \mathrm{d} x\tag{1.14} P(z)=zp(x)dx(1.14)
如果我们有⼏个连续变量 x 1 , … , x D x_1 ,\dots , x_D x1,,xD , 整体记作向量 x \boldsymbol{x} x, 那么我们可以定义联合概率密度 p ( x ) = p ( x 1 , … , x D ) p(\boldsymbol{x}) = p(x_1 ,\dots , x_D ) p(x)=p(x1,,xD),使得 x \boldsymbol{x} x 落在包含点 x \boldsymbol{x} x 的⽆穷⼩体积 δ x \delta \boldsymbol{x} δx 的概率由 p ( x ) δ x p(\boldsymbol{x})\delta \boldsymbol{x} p(x)δx 给出。多变量概率密度必须满⾜以下条件

1) p ( x ) ≥ 0 p(\boldsymbol{x}) \geq 0 p(x)0

  1. ∫ p ( x ) d x = 1 \int p(\boldsymbol{x}) \mathrm{d} \boldsymbol{x}=1 p(x)dx=1

其中,积分必须在整个 x \boldsymbol{x} x 空间上进⾏。

3,期望和方差

在概率分布 p ( x ) p(x) p(x) 下,函数 f ( x ) f(x) f(x) 的平均值被称为 f ( x ) f(x) f(x)期望expectation),记作 E [ f ] \mathbb{E}[f] E[f]。对于⼀个离散变量,它的定义为:
E [ f ] = ∑ x p ( x ) f ( x ) (1.15) \mathbb{E}[f]=\sum_{x} p(x) f(x)\tag{1.15} E[f]=xp(x)f(x)(1.15)
在连续变量的情形下,期望以对应的概率密度的积分的形式表⽰为:
E [ f ] = ∫ p ( x ) f ( x ) d x

这篇关于【机器学习基础】总论的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/877647

相关文章

从基础到高级详解Python数值格式化输出的完全指南

《从基础到高级详解Python数值格式化输出的完全指南》在数据分析、金融计算和科学报告领域,数值格式化是提升可读性和专业性的关键技术,本文将深入解析Python中数值格式化输出的相关方法,感兴趣的小伙... 目录引言:数值格式化的核心价值一、基础格式化方法1.1 三种核心格式化方式对比1.2 基础格式化示例

redis-sentinel基础概念及部署流程

《redis-sentinel基础概念及部署流程》RedisSentinel是Redis的高可用解决方案,通过监控主从节点、自动故障转移、通知机制及配置提供,实现集群故障恢复与服务持续可用,核心组件包... 目录一. 引言二. 核心功能三. 核心组件四. 故障转移流程五. 服务部署六. sentinel部署

从基础到进阶详解Python条件判断的实用指南

《从基础到进阶详解Python条件判断的实用指南》本文将通过15个实战案例,带你大家掌握条件判断的核心技巧,并从基础语法到高级应用一网打尽,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一... 目录​引言:条件判断为何如此重要一、基础语法:三行代码构建决策系统二、多条件分支:elif的魔法三、

Python WebSockets 库从基础到实战使用举例

《PythonWebSockets库从基础到实战使用举例》WebSocket是一种全双工、持久化的网络通信协议,适用于需要低延迟的应用,如实时聊天、股票行情推送、在线协作、多人游戏等,本文给大家介... 目录1. 引言2. 为什么使用 WebSocket?3. 安装 WebSockets 库4. 使用 We

Unity新手入门学习殿堂级知识详细讲解(图文)

《Unity新手入门学习殿堂级知识详细讲解(图文)》Unity是一款跨平台游戏引擎,支持2D/3D及VR/AR开发,核心功能模块包括图形、音频、物理等,通过可视化编辑器与脚本扩展实现开发,项目结构含A... 目录入门概述什么是 UnityUnity引擎基础认知编辑器核心操作Unity 编辑器项目模式分类工程

从基础到高阶详解Python多态实战应用指南

《从基础到高阶详解Python多态实战应用指南》这篇文章主要从基础到高阶为大家详细介绍Python中多态的相关应用与技巧,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、多态的本质:python的“鸭子类型”哲学二、多态的三大实战场景场景1:数据处理管道——统一处理不同数据格式

Python学习笔记之getattr和hasattr用法示例详解

《Python学习笔记之getattr和hasattr用法示例详解》在Python中,hasattr()、getattr()和setattr()是一组内置函数,用于对对象的属性进行操作和查询,这篇文章... 目录1.getattr用法详解1.1 基本作用1.2 示例1.3 原理2.hasattr用法详解2.

MySQL数据类型与表操作全指南( 从基础到高级实践)

《MySQL数据类型与表操作全指南(从基础到高级实践)》本文详解MySQL数据类型分类(数值、日期/时间、字符串)及表操作(创建、修改、维护),涵盖优化技巧如数据类型选择、备份、分区,强调规范设计与... 目录mysql数据类型详解数值类型日期时间类型字符串类型表操作全解析创建表修改表结构添加列修改列删除列

Python 函数详解:从基础语法到高级使用技巧

《Python函数详解:从基础语法到高级使用技巧》本文基于实例代码,全面讲解Python函数的定义、参数传递、变量作用域及类型标注等知识点,帮助初学者快速掌握函数的使用技巧,感兴趣的朋友跟随小编一起... 目录一、函数的基本概念与作用二、函数的定义与调用1. 无参函数2. 带参函数3. 带返回值的函数4.

python panda库从基础到高级操作分析

《pythonpanda库从基础到高级操作分析》本文介绍了Pandas库的核心功能,包括处理结构化数据的Series和DataFrame数据结构,数据读取、清洗、分组聚合、合并、时间序列分析及大数据... 目录1. Pandas 概述2. 基本操作:数据读取与查看3. 索引操作:精准定位数据4. Group