一些杂七杂八的概率统计基础(变分推断所需)

2023-10-20 09:30

本文主要是介绍一些杂七杂八的概率统计基础(变分推断所需),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在开始之前要了解以下这个统计学中背景知识:
贝叶斯学派与频率学派(极大似然估计学派)最大的区别就是,贝叶斯学派认为参数θ不是一个确定值,而是一个随机变量,且随机变量一定是服从某个分布的。

在概率统计中,随机变量(随机数量): 变量中的值是随机现象的结果

似然是个函数!是一个已知量为观测结果未知量为参数的函数,而不是一个概率值。我们已知了观测结果就可以用参数(参数就理解为随机变量服从的某种概率分布的参数)作为未知量列一个表达式写出当前观测结果发生的一个概率。
因为后验概率=先验概率*似然函数,所以我们说得后验概率也是指一个函数并不是一个确定的概率值。
似然用来描述已知随机变量的观测结果时(如随机变量是指抛50次硬币这个事件中,抛硬币获得正面的次数,观测结果是指硬币正面朝上的次数),未知参数的可能取值。似然中就是观测(结果)是已知的,参数是未知的,最大似然估计就是用来估计模型的参数。
所谓最大似然估计就是假设硬币的参数,因为已知实验结果,然后计算实验结果的概率是多少,概率越大的那么这个假设的参数就可能越真。

提到似然就想象用高斯分布模型去理解!可以根据利用最大似然估计求解高斯分布的实例来强化理解上述内容,已知的观测就是高斯分布的x轴坐标,求解的未知参数就是高斯分布的均值和方差,具体参考下面这个链接:
https://zhuanlan.zhihu.com/p/346044291

首先最重要的是要理清算法设计的初衷和大逻辑,即EM算法和变分推断的区别:
1)首先来讲EM算法,EM算法其实就是从非完整数据集中对参数进行 MLE(极大似然估计) 。如下图所示,图中l(θ)为似然函数乘积后取对数得到的。对于没有隐变量的正常情况下,采用极大似然估计法,对下图中的l(θ)求导数并令导数等于0,得到极大值时对应的参数,然后估计出模型参数。可是对于除了含有观测变量还含有隐变量的任务来说,比如:有100个男女身高的样本数据,但是我们不知道具体每个样本来源于男生还是女生,现在需要求男生和女生的身高分别服从什么样的分布;这里样本来源于男生还是女生就是我们的样本中的缺少的观测数据,我们把它叫做隐变量。这种含有隐变量的任务采用上述直接估计参数的方法是不太方便的,因为如果对l(θ)求偏导,会发现非常困难,因为式中包含有隐变量,并且还有和(或积分)的对数,所以很难求解得到未知参数θ。所以我们需要用其它方式去解决参数估计问题。于是我们从求解一个针对已观测变量的似然转而去求解一个针对已观测变量的边际似然 ,笔者认为边际似然这个概念就类似于边缘分布的概念 (其中x就是已观测变量,z是隐变量,x的边际似然就是对应下图红框部分,分号;等价于∣这个符号),所以EM算法便诞生了。因此,EM算法用于求解当变量集合中出现未观测变量时的参数估计问题。
如下面第二张图所示,传统EM算法分为两个步骤,从这张图看出EM和Variational Inference的区别就是,传统EM算法有个先决条件就是q等于pθ(z|x)这个后验分布,说明在EM算法里提前假设了pθ(z|x)这个后验分布是tractable的,而Variational Inference设计的初衷就是为了解决pθ(z|x)是intractable这个问题,这就是两者的区别
E-step: 即“推断步”,推断隐变量z分布的期望,这一步执行之后,相当于隐变量z在某种程度上成为了一种“已观测”变量;
M-step: 即“估计步”,根据已观测变量x和在E步观测到的z进行参数估计。这里,参数估计采用“极大似然估计”
在这里插入图片描述
在这里插入图片描述

2)变分推断理解:
我们假设x是观测变量(或者叫证据变量、输入变量),z是隐变量(或者说是我们希望推断的label,在监督学习中通常用y表示,但在贝叶斯中,一般会用z表示隐变量),例如在线性回归问题中,x是线性回归模型的输入,z是线性回归模型的预测值;在图像分类问题中,x是图像的像素矩阵,z是图像的类别,即label。
假定我们用 X={x1,x2,…,xm}代表我们输入的观察量,Z={z1,z2,…,zm}代表模型中的隐藏变量,隐变量就是不可观测的变量,是服从未知概率分布,后验概率是一种条件概率,它限定了事件为隐变量取值,而条件为观测结果。一般的条件概率,条件和事件可以是任意的。 推断问题(推断指推断隐变量) 即为依据输入数据的后验条件概率分布 P(Z∣X) 。如下图公式所示,X为已知的观测数据即样本量,Z为模型的隐变量,即Z={z1,z2,…,zm}。下面这个式子称为计算Z的后验概率,其表达的意思是首先给定一个先验分布p(Z),然后在我们观测到数据X的条件下时求Z的分布,最后求出来的这个后验分布 P(Z∣X) 用来更新之前的先验分布p(Z)。但是在计算这个公式中等号右边的分母项时,但隐变量Z通常都是需要高维的,这样才能充分represent样本X,所以如果Z的维度特别高,则计算的是高维度上的积分,数值上计算是非常困难的。并且有些情况是可能不存在解析解的。所以此时就可以尝试用变分推断的方法,寻找容易表达和求解的分布q,当q和p的差距很小的时候,q就可以作为p的近似分布,成为输出结果了。在这个过程中,我们的关键点转变了,从“求分布”的推断问题,变成了“缩小距离”的优化问题。对这一部分的理解还可以结合下文其余小知识点里的后验分布进行理解。

这个变分推断的博客是我看过这么多后觉得讲得最好的一个:https://zhuanlan.zhihu.com/p/507776434
在这里插入图片描述
在这里插入图片描述

其余小知识点:
1.后验分布: 首先得知道的是得知道D={x1,x2,…,xn}和θ{θ1,θ2,…,θn}都是随机变量!D是关于观测到的数据的随机变量,θ是关于模型参数的随机变量。注意:只要是随机变量就一定服从某个分布,但是这个分布不一定存在对应的密度函数 !!!比如我们假定一个事件x1的发生服从某个分布,那我们就可以让θ1表示这个分布的参数。 把后验分布看作一个函数,它正比于似然函数乘以参数的先验分布,注意的是参数的先验分布也是一个函数。比如有一堆数据{x1,x2,…,xn},我们把这些数据都看成是一个个独立的事件,那么D就是一组事件的集合。其中每个事情服从的分布不一定相同。 举个例子,如投硬币,硬币朝上的概率就可以看作参数。如果硬币不是均匀的,抛硬币这一事件就可能服从多种参数θ={θ1,θ2,…,θn}的0-1分布的其中一种,这些参数θ={θ1,θ2,…,θn}也服从某个分布。θ是关于模型参数的随机变量, 这些参数θ={θ1,θ2,…,θn}也服从某个分布。在VAE中z被称作是隐变量,并不等同于θ,z可以看成在混合高斯模型中可观测变量样本x属于第几个高斯分布,如z=1就是x这个变量是属于第1个高斯分布,而这个选定的高斯分布的参数就是指的θ。P(θ|x)表示的是给定观测数据的基础上,我们对于模型参数的分布产生的新的认知。
具体例子可参见:https://www.zhihu.com/question/24261751/answer/2355943888

2.求谁不积谁(积是指积分),定值不能作为dx。

3.后验概率可以看作等效于似然函数乘以先验,但是似然函数并不是概率密度函数,可从以下两点原因进行区分:
1).似然函数是参数的函数,不是随机变量(指样本)的函数。
2).似然函数的积分并不等于1, 而概率密度的积分为1.

4.概率不等于概率密度,平时说的概率应该是称作概率质量函数(Probability Mass Function, PMF)。具体区别:https://zhuanlan.zhihu.com/p/413360980

5.对于想得到身高数据的概率分布,x是身高,z隐变量就是性别,隐变量和参数θ是两个概念,参数就是均值方差等,可以理解为一个变量对应一组参数。

6.如果一个概率分布在x轴做一个积分或求和的话则结果为1,如下图N就是一个概率分布,概率分布的x轴代表样本(如身高),y轴代表概率密度。
在这里插入图片描述
7. 不能乱加隐变量,能加隐变量的条件是:加入隐变量z后得到的marginal distribution仍然要等于原来的P(x),这里的边缘分布即就是利用全概率公式展开得到的:
在这里插入图片描述

8.连续型随机变量的函数的数学期望(对任何一个数求期望都要首先知道它的分布,如下图f(x)就是它的概率分布),当数量很大时,由大数定律可得,随机变量的期望就等于随机变量的平均值:
在这里插入图片描述
9. Jensen不等式,可以看做期望的函数小于等于函数的期望,这说的函数的期望里的函数就是指f(x)。等号成立的条件是当f(x)里的x等于一个常数或者说f(x)恒等于一个常数:
在这里插入图片描述
10. 联合分布和边缘分布:
在这里插入图片描述
https://zhuanlan.zhihu.com/p/360842262

11.KL散度,范围大于等于0
在这里插入图片描述

12.贝叶斯基础:条件概率公式(也适用于概率密度函数)是推导的重中之重,然后在证明式子的时候一般以条件概率公式作为桥梁,对左边和右边同时变形来进行证明,逗号是指联合概率,运算顺序是先逗号,再条件概率:
在这里插入图片描述

13.这是VAE的loss function,这里log(pθ(x))为什么是const常数呢?因为在这里它和q没有关系,当x固定时,log(pθ(x))就相当于是个常数。
在这里插入图片描述

14. 边缘分布
我们经常会遇到求某个随机变量的边缘分布,marginal function就是为了将不同变量对于结果的影响分离出来,起到简化分析的目的。那么在联合分布中,我们怎么能让另一个变量Y失效只研究变量X呢?我们采取的做法是使得Y取到定义域的全部,使其发生的概率达到百分百,那么这个事件究竟发生不发生,就完全取决于我们要研究的X了。
在这里插入图片描述

这篇关于一些杂七杂八的概率统计基础(变分推断所需)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/246209

相关文章

C++统计函数执行时间的最佳实践

《C++统计函数执行时间的最佳实践》在软件开发过程中,性能分析是优化程序的重要环节,了解函数的执行时间分布对于识别性能瓶颈至关重要,本文将分享一个C++函数执行时间统计工具,希望对大家有所帮助... 目录前言工具特性核心设计1. 数据结构设计2. 单例模式管理器3. RAII自动计时使用方法基本用法高级用法

从基础到高级详解Python数值格式化输出的完全指南

《从基础到高级详解Python数值格式化输出的完全指南》在数据分析、金融计算和科学报告领域,数值格式化是提升可读性和专业性的关键技术,本文将深入解析Python中数值格式化输出的相关方法,感兴趣的小伙... 目录引言:数值格式化的核心价值一、基础格式化方法1.1 三种核心格式化方式对比1.2 基础格式化示例

redis-sentinel基础概念及部署流程

《redis-sentinel基础概念及部署流程》RedisSentinel是Redis的高可用解决方案,通过监控主从节点、自动故障转移、通知机制及配置提供,实现集群故障恢复与服务持续可用,核心组件包... 目录一. 引言二. 核心功能三. 核心组件四. 故障转移流程五. 服务部署六. sentinel部署

从基础到进阶详解Python条件判断的实用指南

《从基础到进阶详解Python条件判断的实用指南》本文将通过15个实战案例,带你大家掌握条件判断的核心技巧,并从基础语法到高级应用一网打尽,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一... 目录​引言:条件判断为何如此重要一、基础语法:三行代码构建决策系统二、多条件分支:elif的魔法三、

Python WebSockets 库从基础到实战使用举例

《PythonWebSockets库从基础到实战使用举例》WebSocket是一种全双工、持久化的网络通信协议,适用于需要低延迟的应用,如实时聊天、股票行情推送、在线协作、多人游戏等,本文给大家介... 目录1. 引言2. 为什么使用 WebSocket?3. 安装 WebSockets 库4. 使用 We

IDEA与MyEclipse代码量统计方式

《IDEA与MyEclipse代码量统计方式》文章介绍在项目中不安装第三方工具统计代码行数的方法,分别说明MyEclipse通过正则搜索(排除空行和注释)及IDEA使用Statistic插件或调整搜索... 目录项目场景MyEclipse代码量统计IDEA代码量统计总结项目场景在项目中,有时候我们需要统计

从基础到高阶详解Python多态实战应用指南

《从基础到高阶详解Python多态实战应用指南》这篇文章主要从基础到高阶为大家详细介绍Python中多态的相关应用与技巧,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、多态的本质:python的“鸭子类型”哲学二、多态的三大实战场景场景1:数据处理管道——统一处理不同数据格式

MySQL数据类型与表操作全指南( 从基础到高级实践)

《MySQL数据类型与表操作全指南(从基础到高级实践)》本文详解MySQL数据类型分类(数值、日期/时间、字符串)及表操作(创建、修改、维护),涵盖优化技巧如数据类型选择、备份、分区,强调规范设计与... 目录mysql数据类型详解数值类型日期时间类型字符串类型表操作全解析创建表修改表结构添加列修改列删除列

Python 函数详解:从基础语法到高级使用技巧

《Python函数详解:从基础语法到高级使用技巧》本文基于实例代码,全面讲解Python函数的定义、参数传递、变量作用域及类型标注等知识点,帮助初学者快速掌握函数的使用技巧,感兴趣的朋友跟随小编一起... 目录一、函数的基本概念与作用二、函数的定义与调用1. 无参函数2. 带参函数3. 带返回值的函数4.

python panda库从基础到高级操作分析

《pythonpanda库从基础到高级操作分析》本文介绍了Pandas库的核心功能,包括处理结构化数据的Series和DataFrame数据结构,数据读取、清洗、分组聚合、合并、时间序列分析及大数据... 目录1. Pandas 概述2. 基本操作:数据读取与查看3. 索引操作:精准定位数据4. Group