【机器学习基础】概率分布之高斯分布

2024-04-05 04:38

本文主要是介绍【机器学习基础】概率分布之高斯分布,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本系列为《模式识别与机器学习》的读书笔记。

一,多元高斯分布

考虑⾼斯分布的⼏何形式,⾼斯对于 x \boldsymbol{x} x 的依赖是通过下⾯形式的⼆次型:
Δ 2 = ( x − μ ) T Σ − 1 ( x − μ ) (2.30) \Delta^{2} = (\boldsymbol{x} - \boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x} - \boldsymbol{\mu})\tag{2.30} Δ2=(xμ)TΣ1(xμ)(2.30)
其中, Δ \Delta Δ 被叫做 μ \boldsymbol{\mu} μ x \boldsymbol{x} x 之间的马⽒距离Mahalanobis distance)。 当 Σ \boldsymbol{\Sigma} Σ 是单位矩阵时,就变成了欧式距离。对于 x \boldsymbol{x} x 空间中这个⼆次型是常数的曲⾯,⾼斯分布也是常数。

现在考虑协⽅差矩阵特征向量⽅程
Σ μ i = λ i μ i (2.31) \boldsymbol{\Sigma} \boldsymbol{\mu}_i = \lambda_{i} \boldsymbol{\mu}_{i}\tag{2.31} Σμi=λiμi(2.31)
其中 i = 1 , … , D i = 1,\dots , D i=1,,D。由于 Σ \boldsymbol{\Sigma} Σ实对称矩阵,因此它的特征值也是实数,并且特征向量可以被选成单位正交的,即:
μ i T μ j = I i j (2.32) \boldsymbol{\mu}_{i}^{T} \boldsymbol{\mu}_{j} = I_{ij}\tag{2.32} μiTμj=Iij(2.32)

其中 I i j I_{ij} Iij 是单位矩阵的第 i , j i, j i,j 个元素,满⾜:
I i j = { 1 , 如 果 i = j 0 , 其 他 情 况 (2.33) I_{i j}=\left\{\begin{array}{l}{1,如果 i=j} \\ {0,其他情况}\end{array}\right. \tag{2.33} Iij={1i=j0(2.33)
协⽅差矩阵 Σ \boldsymbol{\Sigma} Σ 可以表⽰成特征向量的展开的形式:
Σ = ∑ i = 1 D λ i μ i μ i T (2.34) \boldsymbol{\Sigma} = \sum_{i=1}^{D} \lambda_i \boldsymbol{\mu}_{i}\boldsymbol{\mu}_{i}^{T}\tag{2.34} Σ=i=1DλiμiμiT(2.34)
协⽅差矩阵的逆矩阵 Σ − 1 \boldsymbol{\Sigma}^{-1} Σ1 可以表⽰成特征向量的展开的形式:
Σ − 1 = ∑ i = 1 D 1 λ i μ i μ i T (2.35) \boldsymbol{\Sigma}^{-1} = \sum_{i=1}^{D} \frac{1}{\lambda_i} \boldsymbol{\mu}_{i}\boldsymbol{\mu}_{i}^{T}\tag{2.35} Σ1=i=1Dλi1μiμiT(2.35)
⼆次型公式(2.30)即可表示为:
Δ 2 = ∑ i = 1 D y i 2 λ i (2.36) \Delta^{2} = \sum_{i=1}^{D} \frac{y_{i}^{2}}{\lambda_{i}}\tag{2.36} Δ2=i=1Dλiyi2(2.36)
其中, y i 2 = u i T ( x − μ ) y_{i}^{2} = \boldsymbol{u_i^T} (\boldsymbol{x} - \boldsymbol{\mu}) yi2=uiT(xμ)

{ y i } \{y_i\} {yi} 表⽰成单位正交向量 μ i \boldsymbol{\mu_i} μi 关于原始的 x i x_i xi 坐标经过平移和旋转后形成的新的坐标系。定义向量 y = ( y 1 , … , y D ) T \boldsymbol{y} = (y_1,\dots, y_D)^T y=(y1,,yD)T ,即有:
y = U ( x − μ ) (2.37) \boldsymbol {y} = \boldsymbol{U} (\boldsymbol{x} - \boldsymbol{\mu})\tag{2.37} y=U(xμ)(2.37)
其中 U \boldsymbol{U} U 是⼀个矩阵,它的⾏是向量 u i T \boldsymbol{u}_{i}^{T} uiT 。从公式(2.32)可以看出 U \boldsymbol{U} U 是⼀个正交矩阵, 即它满⾜性质 U U T = I \boldsymbol{U}\boldsymbol{U}^T = \boldsymbol{I} UUT=I ,因此也满⾜ U T U = I \boldsymbol{U}^T \boldsymbol{U} = \boldsymbol{I} UTU=I ,其中 I \boldsymbol{I} I 是单位矩阵。

⼀个特征值严格⼤于零的矩阵被称为正定(positive definite)矩阵。偶尔遇到⼀个或者多个特征值为零的⾼斯分布,那种情况下分布是奇异的,被限制在 了⼀个低维的⼦空间中。如果所有的特征值都是⾮负的,那么这个矩阵被称为半正定(positive semidefine)矩阵

如图2.12,红⾊曲线表⽰⼆维空间 x = ( x 1 , x 2 ) \boldsymbol{x} = (x_1 , x_2) x=(x1,x2) 的⾼斯分布的常数概率密度的椭圆⾯, 它表⽰的概率密度为 exp ⁡ ( − 1 2 ) \exp(−\frac{1}{2}) exp(21),值是在 x = μ \boldsymbol{x} = \boldsymbol{\mu} x=μ 处计算的。椭圆的轴由协⽅差矩阵的特征向量 μ i \mu_i μi 定义,对应的特征值为 λ i \lambda_i λi
椭圆面
现在考虑在由 y i y_i yi 定义的新坐标系下⾼斯分布的形式。 从 x \boldsymbol{x} x 坐标系到 y \boldsymbol{y} y 坐标系, 我们有⼀ 个 Jacobian矩阵 J \boldsymbol{J} J ,它的元素为:
J i j = ∂ x i ∂ j j = U i j (2.38) \boldsymbol{J}_{ij} = \frac{\partial {x_i}}{\partial {j_j}} = U_{ij}\tag{2.38} Jij=jjxi=Uij(2.38)

其中 U j i U_{ji} Uji 是矩阵 U T \boldsymbol{U}^T UT 的元素。使⽤矩阵 U \boldsymbol{U} U 的单位正交性质,我们看到 Jacobian矩阵 ⾏列式的平⽅为:
∣ J 2 ∣ = ∣ U T ∣ 2 = ∣ U T ∣ ∣ U ∣ = ∣ U T U ∣ = ∣ I ∣ = 1 (2.39) | \boldsymbol{J}^{2} | = |\boldsymbol{U}^{T}|^{2} = |\boldsymbol{U}^{T}||\boldsymbol{U}| = |\boldsymbol{U}^{T}\boldsymbol{U}| = |\boldsymbol{I}| = 1\tag{2.39} J2=UT2=UTU=UTU=I=1(2.39)
从而可知, ∣ J ∣ = 1 |\boldsymbol{J}|=1 J=1 ,并且,⾏列式 ∣ Σ ∣ |\boldsymbol{\Sigma}| Σ 的协⽅差矩阵可以写成特征值的乘积,因此:
∣ Σ ∣ 1 2 = ∏ j = 1 D λ j 1 2 (2.40) |\boldsymbol{\Sigma}|^{\frac{1}{2}} = \prod_{j=1}^{D} \lambda_{j}^{\frac{1}{2}}\tag{2.40} Σ21=j=1Dλj21(2.40)
因此在 y \boldsymbol{y} y 坐标系中,⾼斯分布的形式为:
p ( y ) = p ( x ) ∣ J ∣ = ∏ j = 1 D 1 ( 2 π λ j ) 1 2 exp ⁡ { − y i 2 2 λ j } (2.41) p(\boldsymbol{y}) = p(\boldsymbol{x})|\boldsymbol{J}| = \prod_{j=1}^{D} \frac{1}{(2 \pi \lambda_{j})^{\frac{1}{2}}} \exp \left \{- \frac{y_{i}^2}{2\lambda_j} \right \}\tag{2.41} p(y)=p(x)J=j=1D(2πλj)211exp{2λjyi2}(2.41)

这是 D D D 个独⽴⼀元⾼斯分布的乘积。

y \boldsymbol{y} y 坐标系中,概率分布的积分为:
∫ p ( y ) d y = ∏ j = 1 D ∫ − ∞ ∞ 1 ( 2 π λ j ) 1 2 exp ⁡ { − y i 2 2 λ j } d y j = 1 (2.42) \int p(\boldsymbol{y}) \mathrm{d} \boldsymbol{y} = \prod_{j=1}^{D} \int_{-\infty}^{\infty} \frac{1}{(2 \pi \lambda_{j})^{\frac{1}{2}}} \exp \left \{- \frac{y_{i}^2}{2\lambda_j} \right \} \mathrm{d} y_j = 1\tag{2.42} p(y)dy=j=1D(2πλj)211exp{2λjyi2}dyj=1(2.42)
⾼斯分布 x \boldsymbol{x} x 的期望为:
E [ x ] = 1 ( 2 π ) D 2 1 ∣ Σ ∣ 1 2 ∫ exp ⁡ { − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) } x d x = 1 ( 2 π ) D 2 1 ∣ Σ ∣ 1 2 ∫ exp ⁡ { − 1 2 z T Σ − 1 z } ( z + μ ) d z (2.43) \begin{aligned} \mathbb{E}[\boldsymbol{x}] &= \frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right\} \boldsymbol{x} \mathrm{d} \boldsymbol{x} \\ &= \frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{-\frac{1}{2}\boldsymbol{z}^{T} \boldsymbol{\Sigma}^{-1} \boldsymbol{z}\right\} (\boldsymbol{z+\mu}) \mathrm{d} \boldsymbol{z} \end{aligned}\tag{2.43} E[x]=(2π)2D1Σ211exp{21(xμ)TΣ1(xμ)}xdx=(2π)2D1Σ211exp{21zTΣ1z}(z+μ)dz(2.43)
其中, z = x − μ \boldsymbol{z = x - \mu} z=xμ 。注意到指数位置是 z \boldsymbol{z} z 的偶函数,并且由于积分区间为 ( − ∞ , ∞ ) (−\infty, \infty) (,),因此在因⼦ ( z + μ ) (\boldsymbol{z + \mu}) (z+μ) 中的 z \boldsymbol{z} z 中的项会由于对称性变为零。因此 E [ x ] = μ \mathbb{E}[\boldsymbol{x}] = \boldsymbol{\mu} E[x]=μ 。称 μ \boldsymbol{\mu} μ 为⾼斯分布的均值

现在考虑⾼斯分布的⼆阶矩。对于多元⾼斯分布,有 D 2 D^2 D2 个由 E [ x i x j ] \mathbb{E}[x_i x_j] E[xixj] 给出的⼆阶矩,可以聚集在⼀起组成矩阵 E [ x x T ] \mathbb{E}[\boldsymbol{x}\boldsymbol{x}^T ] E[xxT]
E [ x x T ] = 1 ( 2 π ) D 2 1 ∣ Σ ∣ 1 2 ∫ exp ⁡ { − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) } x x T d x = 1 ( 2 π ) D 2 1 ∣ Σ ∣ 1 2 ∫ exp ⁡ { − 1 2 z T Σ − 1 z } ( z + μ ) ( z + μ ) T d z (2.44) \begin{aligned} \mathbb{E}[\boldsymbol{x}\boldsymbol{x}^{T}] &= \frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right\} \boldsymbol{x} \boldsymbol{x}^{T}\mathrm{d} \boldsymbol{x} \\ &= \frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{-\frac{1}{2}\boldsymbol{z}^{T} \boldsymbol{\Sigma}^{-1} \boldsymbol{z}\right\} (\boldsymbol{z+\mu})(\boldsymbol{z+\mu})^{T} \mathrm{d} \boldsymbol{z} \end{aligned}\tag{2.44} E[xxT]=(2π)2D1Σ211exp{21(xμ)TΣ1(xμ)}xxTdx=(2π)2D1Σ211exp{21zTΣ1z}(z+μ)(z+μ)Tdz(2.44)
其中, z = x − μ \boldsymbol{z = x - \mu} z=xμ z = ∑ j = 1 D y

这篇关于【机器学习基础】概率分布之高斯分布的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/877643

相关文章

Android学习总结之Java和kotlin区别超详细分析

《Android学习总结之Java和kotlin区别超详细分析》Java和Kotlin都是用于Android开发的编程语言,它们各自具有独特的特点和优势,:本文主要介绍Android学习总结之Ja... 目录一、空安全机制真题 1:Kotlin 如何解决 Java 的 NullPointerExceptio

Linux基础命令@grep、wc、管道符的使用详解

《Linux基础命令@grep、wc、管道符的使用详解》:本文主要介绍Linux基础命令@grep、wc、管道符的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录grep概念语法作用演示一演示二演示三,带选项 -nwc概念语法作用wc,不带选项-c,统计字节数-

python操作redis基础

《python操作redis基础》Redis(RemoteDictionaryServer)是一个开源的、基于内存的键值对(Key-Value)存储系统,它通常用作数据库、缓存和消息代理,这篇文章... 目录1. Redis 简介2. 前提条件3. 安装 python Redis 客户端库4. 连接到 Re

SpringBoot基础框架详解

《SpringBoot基础框架详解》SpringBoot开发目的是为了简化Spring应用的创建、运行、调试和部署等,使用SpringBoot可以不用或者只需要很少的Spring配置就可以让企业项目快... 目录SpringBoot基础 – 框架介绍1.SpringBoot介绍1.1 概述1.2 核心功能2

Spring Boot集成SLF4j从基础到高级实践(最新推荐)

《SpringBoot集成SLF4j从基础到高级实践(最新推荐)》SLF4j(SimpleLoggingFacadeforJava)是一个日志门面(Facade),不是具体的日志实现,这篇文章主要介... 目录一、日志框架概述与SLF4j简介1.1 为什么需要日志框架1.2 主流日志框架对比1.3 SLF4

Spring Boot集成Logback终极指南之从基础到高级配置实战指南

《SpringBoot集成Logback终极指南之从基础到高级配置实战指南》Logback是一个可靠、通用且快速的Java日志框架,作为Log4j的继承者,由Log4j创始人设计,:本文主要介绍... 目录一、Logback简介与Spring Boot集成基础1.1 Logback是什么?1.2 Sprin

重新对Java的类加载器的学习方式

《重新对Java的类加载器的学习方式》:本文主要介绍重新对Java的类加载器的学习方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、介绍1.1、简介1.2、符号引用和直接引用1、符号引用2、直接引用3、符号转直接的过程2、加载流程3、类加载的分类3.1、显示

MySQL复合查询从基础到多表关联与高级技巧全解析

《MySQL复合查询从基础到多表关联与高级技巧全解析》本文主要讲解了在MySQL中的复合查询,下面是关于本文章所需要数据的建表语句,感兴趣的朋友跟随小编一起看看吧... 目录前言:1.基本查询回顾:1.1.查询工资高于500或岗位为MANAGER的雇员,同时还要满足他们的姓名首字母为大写的J1.2.按照部门

Java学习手册之Filter和Listener使用方法

《Java学习手册之Filter和Listener使用方法》:本文主要介绍Java学习手册之Filter和Listener使用方法的相关资料,Filter是一种拦截器,可以在请求到达Servl... 目录一、Filter(过滤器)1. Filter 的工作原理2. Filter 的配置与使用二、Listen

Android Mainline基础简介

《AndroidMainline基础简介》AndroidMainline是通过模块化更新Android核心组件的框架,可能提高安全性,本文给大家介绍AndroidMainline基础简介,感兴趣的朋... 目录关键要点什么是 android Mainline?Android Mainline 的工作原理关键