【机器学习基础】总论

2024-04-05 04:38
文章标签 基础 学习 机器 总论

本文主要是介绍【机器学习基础】总论,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本系列为《模式识别与机器学习》的读书笔记。

一, 概率论

1,离散型随机变量概率

假设随机变量 X X X 可以取任意 的 x i x_i xi ,其中 i = 1 , …   . , M i = 1, \dots. , M i=1,.,M ,并且随机变量 Y Y Y 可以取任意的 y j y_j yj ,其中 j = 1 , … , L j = 1,\dots , L j=1,,L。考虑 N N N 次试验,其中我们对 X X X Y Y Y 都进⾏取样, 把 X = x i X = x_i X=xi Y = y j Y = y_j Y=yj 的试验的数量记作 n i j n_{ij} nij ,并且,把 X X X 取值 x i x_i xi (与 Y Y Y 的取值⽆关)的试验的数量记作 c i c_i ci ,类似地,把 Y Y Y 取值 y j y_j yj 的试验的数量记作 r j r_j rj

X X X 取值 x i x_i xi Y Y Y 取值 y j y_j yj 的概率被记作 p ( X = x i , Y = y j ) p(X = x_i , Y = y_j ) p(X=xi,Y=yj), 被称为 X = x i X = x_i X=xi Y = y j Y = y_j Y=yj联合概率joint probability)。它的计算⽅法为落在单元格 i , j i, j i,j 的点的数量与点的总数的⽐值,即:
p ( X = x i , Y = y i ) = n i j N (1.5) p\left(X=x_{i}, Y=y_{i}\right)=\frac{n_{i j}}{N}\tag{1.5} p(X=xi,Y=yi)=Nnij(1.5)
如图1.15所示,联合概率的计算方法。
联合概率计算
类似地, X X X 取值 x i x_i xi (与 Y Y Y 取值无关)的概率被记作 p ( X = x i ) p(X = x_i ) p(X=xi) ,也称为边缘概率marginal probability),计算⽅法为落在列 i i i上的点的数量与点的总数的⽐值,即:
p ( X = x i ) = c j N (1.6) p\left(X=x_{i}\right)=\frac{c_{j}}{N}\tag{1.6} p(X=xi)=Ncj(1.6)
由于图1.15中列 i i i 上的实例总数就是这列的所有单元格中实例的数量之和,即 c i = ∑ j n i j c_{i}=\sum_{j} n_{i j} ci=jnij,因此根据公式(1.5)和公式(1.6),我们可以得到概率的加和规则sun rule),即:
p ( X = x j ) = ∑ j = 1 L p ( X = x i , Y = y j ) (1.7) p\left(X=x_{j}\right)=\sum_{j=1}^{L} p\left(X=x_{i}, Y=y_{j}\right)\tag{1.7} p(X=xj)=j=1Lp(X=xi,Y=yj)(1.7)
如果我们只考虑那些 X = x i X = x_i X=xi 的实例, 那么这些实例中 Y = y j Y = y_j Y=yj 的实例所占的⽐例被写成 p ( Y = y j ∣ X = x i ) p(Y = y_j | X = x_i) p(Y=yjX=xi),被称为给定 X = x i X = x_i X=xi Y = y j Y = y_j Y=yj条件概率conditional probability),其计算⽅式为:计算落在单元格 i , j i, j i,j 的点的数量列 i i i 的点的数量的⽐值,即:
p ( Y = y j ∣ X = x i ) = n i j c i (1.8) p\left(Y=y_{j} | X=x_{i}\right)=\frac{n_{i j}}{c_{i}}\tag{1.8} p(Y=yjX=xi)=cinij(1.8)
从公式(1.5)、公式(1.6)、公式(1.8)可以推导出概率的乘积规则product rule),即:
p ( X = x i , Y = y j ) = n i j N = n i j c i ⋅ c i N = p ( Y = y j ∣ X = x i ) p ( X = x i ) (1.9) p\left(X=x_{i}, Y=y_{j}\right)=\frac{n_{i j}}{N}=\frac{n_{i j}}{c_{i}} \cdot \frac{c_{i}}{N}=p\left(Y=y_{j} | X=x_{i}\right) p\left(X=x_{i}\right) \tag{1.9} p(X=xi,Y=yj)=Nnij=cinijNci=p(Y=yjX=xi)p(X=xi)(1.9)

根据乘积规则,以及对称性 p ( X , Y ) = p ( Y , X ) p(X, Y ) = p(Y, X) p(X,Y)=p(Y,X),我们⽴即得到了下⾯的两个条件概率之间的关系,称为贝叶斯定理Bayes' theorem)即:
p ( Y ∣ X ) = p ( X ∣ Y ) p ( Y ) p ( X ) (1.10) p(Y | X)=\frac{p(X | Y) p(Y)}{p(X)}\tag{1.10} p(YX)=p(X)p(XY)p(Y)(1.10)

贝叶斯定理Bayes' theorem),在模式识别和机器学习领域扮演者中⼼⾓⾊。使⽤加和规则,贝叶斯定理中的分母可以⽤出现在分⼦中的项表⽰,这样就可以把分母看作归一常数,即:
p ( X ) = ∑ Y p ( X ∣ Y ) p ( Y ) (1.11) p(X)=\sum_{Y} p(X|Y) p(Y)\tag{1.11} p(X)=Yp(XY)p(Y)(1.11)

如果两个变量的联合分布可以分解成两个边缘分布的乘积,即 p ( X , Y ) = p ( X ) p ( Y ) p(X, Y) = p(X)p(Y) p(X,Y)=p(X)p(Y), 那么我们说 X X X Y Y Y 相互独⽴independent)。

2,概率密度

如果⼀个实值变量x的概率 落在区间 ( x , x + δ x ) (x, x + \delta x) (x,x+δx) 的概率由 p ( x ) δ x p(x)\delta x p(x)δx 给出( δ x → 0 \delta x \to 0 δx0), 那么 p ( x ) p(x) p(x) 叫做 x x x概率密度probability density)。 x x x 位于区间 ( a , b ) (a, b) (a,b) 的概率:

p ( x ∈ ( a , b ) ) = ∫ a b p ( x ) d x (1.12) p(x \in(a, b))=\int_{a}^{b} p(x) \mathrm{d}x\tag{1.12} p(x(a,b))=abp(x)dx(1.12)
如图1.16,概率密度函数。
离散型变量的概率与概率密度函数
由于概率是⾮负的,并且 x x x 的值⼀定位于实数轴上得某个位置,因此概率密度⼀定满⾜下⾯两个条件

1) p ( x ) ≥ 0 p(x) \geq 0 p(x)0

  1. ∫ − ∞ ∞ p ( x ) d x = 1 \int_{-\infty}^{\infty} p(x) \mathrm{d} x=1 p(x)dx=1

在变量以⾮线性的形式变化的情况下,概率密度函数通过Jacobian因⼦变换为与简单的函数不同的形式。

例如,假设我们考虑⼀个变量的变化 x = g ( y ) x = g(y) x=g(y), 那么函数 f ( x ) f(x) f(x) 就变成 了 f ~ ( y ) = f ( g ( y ) ) \tilde{f}(y)=f(g(y)) f~(y)=f(g(y))。现在让我们考虑⼀个概率密度函数 p x ( x ) p_x (x) px(x),它对应于⼀个关于新变量 y y y 的密度函数 p y ( y ) p_y (y) py(y),对于很⼩的 δ x \delta x δx 的值,落在区间 ( x , x + δ x ) (x, x + \delta x) (x,x+δx) 内的观测会被变换到区间 ( y , y + δ y ) (y, y + \delta y) (y,y+δy) 中。其中 p x ( x ) δ x ≃ p y ( y ) δ y p_{x}(x) \delta x \simeq p_{y}(y) \delta y px(x)δxpy(y)δy ,因此有:
p y ( y ) = p x ( x ) ∣ d x d y ∣ = p x ( g ( y ) ) ∣ g ′ ( y ) ∣ (1.13) p_{y}(y)=p_{x}(x)\left|\frac{\mathrm{d} x}{\mathrm{d} y}\right|=p_{x}(g(y))\left|g^{\prime}(y)\right|\tag{1.13} py(y)=px(x)dydx=px(g(y))g(y)(1.13)
位于区间 ( − ∞ , z ) (−\infty, z) (,z) x x x 的概率由累积分布函数cumulative distribution function)给出。 定义为:
P ( z ) = ∫ − ∞ z p ( x ) d x (1.14) P(z)=\int_{-\infty}^{z} p(x) \mathrm{d} x\tag{1.14} P(z)=zp(x)dx(1.14)
如果我们有⼏个连续变量 x 1 , … , x D x_1 ,\dots , x_D x1,,xD , 整体记作向量 x \boldsymbol{x} x, 那么我们可以定义联合概率密度 p ( x ) = p ( x 1 , … , x D ) p(\boldsymbol{x}) = p(x_1 ,\dots , x_D ) p(x)=p(x1,,xD),使得 x \boldsymbol{x} x 落在包含点 x \boldsymbol{x} x 的⽆穷⼩体积 δ x \delta \boldsymbol{x} δx 的概率由 p ( x ) δ x p(\boldsymbol{x})\delta \boldsymbol{x} p(x)δx 给出。多变量概率密度必须满⾜以下条件

1) p ( x ) ≥ 0 p(\boldsymbol{x}) \geq 0 p(x)0

  1. ∫ p ( x ) d x = 1 \int p(\boldsymbol{x}) \mathrm{d} \boldsymbol{x}=1 p(x)dx=1

其中,积分必须在整个 x \boldsymbol{x} x 空间上进⾏。

3,期望和方差

在概率分布 p ( x ) p(x) p(x) 下,函数 f ( x ) f(x) f(x) 的平均值被称为 f ( x ) f(x) f(x)期望expectation),记作 E [ f ] \mathbb{E}[f] E[f]。对于⼀个离散变量,它的定义为:
E [ f ] = ∑ x p ( x ) f ( x ) (1.15) \mathbb{E}[f]=\sum_{x} p(x) f(x)\tag{1.15} E[f]=xp(x)f(x)(1.15)
在连续变量的情形下,期望以对应的概率密度的积分的形式表⽰为:
E [ f ] = ∫ p ( x ) f ( x ) d x

这篇关于【机器学习基础】总论的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/877647

相关文章

从基础到进阶详解Pandas时间数据处理指南

《从基础到进阶详解Pandas时间数据处理指南》Pandas构建了完整的时间数据处理生态,核心由四个基础类构成,Timestamp,DatetimeIndex,Period和Timedelta,下面我... 目录1. 时间数据类型与基础操作1.1 核心时间对象体系1.2 时间数据生成技巧2. 时间索引与数据

Go学习记录之runtime包深入解析

《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,:本文主要介绍Go学习记录之runtime包的... 目录前言:一、runtime包内容学习1、作用:① Goroutine和并发控制:② 垃圾回收:③ 栈和

安装centos8设置基础软件仓库时出错的解决方案

《安装centos8设置基础软件仓库时出错的解决方案》:本文主要介绍安装centos8设置基础软件仓库时出错的解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录安装Centos8设置基础软件仓库时出错版本 8版本 8.2.200android4版本 javas

Android学习总结之Java和kotlin区别超详细分析

《Android学习总结之Java和kotlin区别超详细分析》Java和Kotlin都是用于Android开发的编程语言,它们各自具有独特的特点和优势,:本文主要介绍Android学习总结之Ja... 目录一、空安全机制真题 1:Kotlin 如何解决 Java 的 NullPointerExceptio

Linux基础命令@grep、wc、管道符的使用详解

《Linux基础命令@grep、wc、管道符的使用详解》:本文主要介绍Linux基础命令@grep、wc、管道符的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录grep概念语法作用演示一演示二演示三,带选项 -nwc概念语法作用wc,不带选项-c,统计字节数-

python操作redis基础

《python操作redis基础》Redis(RemoteDictionaryServer)是一个开源的、基于内存的键值对(Key-Value)存储系统,它通常用作数据库、缓存和消息代理,这篇文章... 目录1. Redis 简介2. 前提条件3. 安装 python Redis 客户端库4. 连接到 Re

SpringBoot基础框架详解

《SpringBoot基础框架详解》SpringBoot开发目的是为了简化Spring应用的创建、运行、调试和部署等,使用SpringBoot可以不用或者只需要很少的Spring配置就可以让企业项目快... 目录SpringBoot基础 – 框架介绍1.SpringBoot介绍1.1 概述1.2 核心功能2

Spring Boot集成SLF4j从基础到高级实践(最新推荐)

《SpringBoot集成SLF4j从基础到高级实践(最新推荐)》SLF4j(SimpleLoggingFacadeforJava)是一个日志门面(Facade),不是具体的日志实现,这篇文章主要介... 目录一、日志框架概述与SLF4j简介1.1 为什么需要日志框架1.2 主流日志框架对比1.3 SLF4

Spring Boot集成Logback终极指南之从基础到高级配置实战指南

《SpringBoot集成Logback终极指南之从基础到高级配置实战指南》Logback是一个可靠、通用且快速的Java日志框架,作为Log4j的继承者,由Log4j创始人设计,:本文主要介绍... 目录一、Logback简介与Spring Boot集成基础1.1 Logback是什么?1.2 Sprin

重新对Java的类加载器的学习方式

《重新对Java的类加载器的学习方式》:本文主要介绍重新对Java的类加载器的学习方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、介绍1.1、简介1.2、符号引用和直接引用1、符号引用2、直接引用3、符号转直接的过程2、加载流程3、类加载的分类3.1、显示