#通俗理解# 从极大似然估计(MLE)到最大期望(EM)算法

2024-01-08 06:59

本文主要是介绍#通俗理解# 从极大似然估计(MLE)到最大期望(EM)算法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 1. 期望(Expectation)
  • 2. 极大似然估计(Maximum Likelihood Estimate,MLE)
  • 3. 最大方差估计(Expectation-Maximum,EM)
    • 对于第2步的解释
    • 对于第3步的解释
    • 对于第4步的解释

1. 期望(Expectation)

顾名思义,最大期望算法就是让某个函数的期望最大化从而得到最优参数,首先我们先要了解期望的公式:
在这里插入图片描述
期望本质上就是根据随机变量的分布对函数值的加权求和,平均值是期望的一种特殊形式,平均值假设随机变量取到每种值得概率相同(均分分布)

2. 极大似然估计(Maximum Likelihood Estimate,MLE)

对于一个样本数据,如果我们可以得到通过一个公式(带有未知参数)得到这个样本出现的概率,那么我们就可以称这个公式为似然函数

因为这个样本数据被我们观测到了,因此我们认为这个样本出现的概率最大,我们通过最大化似然函数的值就能够得到函数中参数的最优值

为了得到最大化似然函数下参数的最优值,我们首先求的似然函数对参数的偏导数,然后令偏导数等于0从而得到参数的最优值;极大似然函数一般一次就能够得到结果,不需要迭代

极大似然估计的公式如下:
θ m l e = arg ⁡ max ⁡ θ ( θ ) l o g P ( x ∣ θ ) θ_{mle}=\mathop{\arg\max}\limits_{\theta}(θ)logP(x|θ) θmle=θargmax(θ)logP(xθ)
上式之所以要去 log,是因为取完log后内部的乘法变为加法,能够简化运算

3. 最大方差估计(Expectation-Maximum,EM)

对于包含隐变量的似然函数,计算参数的偏导数为零时的参数值往往十分困难,因此对于包含隐变量的似然函数使用极大似然估计很难得到结果

EM算法一般用来求解包含隐变量函数的参数问题,EM算法将隐变量的概率分布Z和似然函数内的参数θ看作是两个部分依次迭代优化,具体实现方式如下:

  1. 随机初始化似然函数的参数θ
  2. 根据似然函数内的参数估计隐变量z
  3. 最大化似然函数对于隐变量的期望,并最求得期望最大时似然函数内部参数的更新值θ
  4. 跳到第2步用更新后的θ估计隐变量分布Z,然后执行3步…直至函数收敛

EM算法的迭代公式如下:
θ t + 1 = arg ⁡ max ⁡ θ ∫ z l o g ( P ( x , z ∣ θ ) ) P ( x ∣ z , θ t ) d z θ^{t+1}=\mathop{\arg\max}\limits_{\theta}\int_zlog(P(x,z|\theta))P(x|z,\theta^t)dz θt+1=θargmaxzlog(P(x,zθ))P(xz,θt)dz
其实这就是一个求期望的公式,积分号内可以看做两部分,一部分是 log似然函数,一部分是隐变量的概率分布函数(先验概率)总结来说就是求log似然函数在隐变量上的积分(期望)

对于第2步的解释

隐变量z由多个隐状态组成( z 1 , z 2 . . . z n z_1,z_2...z_n z1,z2...zn),估计隐变量z的概率分布,换句话说就是就算隐变量每种情况出现的概率;

  • 以混合高斯模型(GMM)为例,隐变量是每种高斯分布的权重参数,估计隐变量z等价于估计各个权重系数的概率分布(连续分布)

  • 以隐马尔可夫模型(HMM)为例,隐变量是HMM观测序列对应的隐层状态序列,估计隐变量z等价于估计当前观测序列由每种隐层状态序列得出的概率(离散分布)

对于第3步的解释

第3步的作用是计算似然函数在隐变量上的期望,换个角度理解是:令似然函数在每种隐变量的情况下同时最大化(当然每种情况的权重不同);离散分布的隐变量和连续分布的隐变量求期望的方式有所不同:

  • 离散分布的隐变量,EM算法等价于对隐变量取不同值时的似然函数进行加权求和,权重是隐变量取得不同值时的概率;最后,令加权之后的似然函数最大化从而得到更新后的参数值θ
  • 连续分布的隐变量,EM算法等价于对似然函数在隐变量上进行积分,然后对积分后的函数最大化从而得到更新后的参数值θ

对于第4步的解释

第3步我们更新了似然函数中的参数θ,接着跳到第2步得到新的隐变量z,然后执行第3步,这样依次循环更新参数θ和隐变量直至模型收敛

这篇关于#通俗理解# 从极大似然估计(MLE)到最大期望(EM)算法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/582632

相关文章

深入理解go中interface机制

《深入理解go中interface机制》本文主要介绍了深入理解go中interface机制,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录前言interface使用类型判断总结前言go的interface是一组method的集合,不

Java Spring的依赖注入理解及@Autowired用法示例详解

《JavaSpring的依赖注入理解及@Autowired用法示例详解》文章介绍了Spring依赖注入(DI)的概念、三种实现方式(构造器、Setter、字段注入),区分了@Autowired(注入... 目录一、什么是依赖注入(DI)?1. 定义2. 举个例子二、依赖注入的几种方式1. 构造器注入(Con

深入理解Go语言中二维切片的使用

《深入理解Go语言中二维切片的使用》本文深入讲解了Go语言中二维切片的概念与应用,用于表示矩阵、表格等二维数据结构,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起学习学习吧... 目录引言二维切片的基本概念定义创建二维切片二维切片的操作访问元素修改元素遍历二维切片二维切片的动态调整追加行动态

从原理到实战深入理解Java 断言assert

《从原理到实战深入理解Java断言assert》本文深入解析Java断言机制,涵盖语法、工作原理、启用方式及与异常的区别,推荐用于开发阶段的条件检查与状态验证,并强调生产环境应使用参数验证工具类替代... 目录深入理解 Java 断言(assert):从原理到实战引言:为什么需要断言?一、断言基础1.1 语

Java中的雪花算法Snowflake解析与实践技巧

《Java中的雪花算法Snowflake解析与实践技巧》本文解析了雪花算法的原理、Java实现及生产实践,涵盖ID结构、位运算技巧、时钟回拨处理、WorkerId分配等关键点,并探讨了百度UidGen... 目录一、雪花算法核心原理1.1 算法起源1.2 ID结构详解1.3 核心特性二、Java实现解析2.

使用雪花算法产生id导致前端精度缺失问题解决方案

《使用雪花算法产生id导致前端精度缺失问题解决方案》雪花算法由Twitter提出,设计目的是生成唯一的、递增的ID,下面:本文主要介绍使用雪花算法产生id导致前端精度缺失问题的解决方案,文中通过代... 目录一、问题根源二、解决方案1. 全局配置Jackson序列化规则2. 实体类必须使用Long封装类3.

Springboot实现推荐系统的协同过滤算法

《Springboot实现推荐系统的协同过滤算法》协同过滤算法是一种在推荐系统中广泛使用的算法,用于预测用户对物品(如商品、电影、音乐等)的偏好,从而实现个性化推荐,下面给大家介绍Springboot... 目录前言基本原理 算法分类 计算方法应用场景 代码实现 前言协同过滤算法(Collaborativ

spring IOC的理解之原理和实现过程

《springIOC的理解之原理和实现过程》:本文主要介绍springIOC的理解之原理和实现过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、IoC 核心概念二、核心原理1. 容器架构2. 核心组件3. 工作流程三、关键实现机制1. Bean生命周期2.

深入理解Apache Kafka(分布式流处理平台)

《深入理解ApacheKafka(分布式流处理平台)》ApacheKafka作为现代分布式系统中的核心中间件,为构建高吞吐量、低延迟的数据管道提供了强大支持,本文将深入探讨Kafka的核心概念、架构... 目录引言一、Apache Kafka概述1.1 什么是Kafka?1.2 Kafka的核心概念二、Ka

openCV中KNN算法的实现

《openCV中KNN算法的实现》KNN算法是一种简单且常用的分类算法,本文主要介绍了openCV中KNN算法的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录KNN算法流程使用OpenCV实现KNNOpenCV 是一个开源的跨平台计算机视觉库,它提供了各