神经网络数学基础-香浓信息量、信息熵、交叉熵、相对熵(KL散度)

本文主要是介绍神经网络数学基础-香浓信息量、信息熵、交叉熵、相对熵(KL散度),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

香浓信息量

这里以连续随机变量的情况为例。设 p 为随机变量X的概率分布,即 p(x) 为随机变量 XX=x 处的概率密度函数值,随机变量 Xx 处的香农信息量定义为:

-log_2p(x)=log_2\frac{1}{p(x)}

这时香农信息量的单位为比特,香农信息量用于刻画消除随机变量在处的不确定性所需的信息量的大小

如果非连续型随机变量,则为某一具体随机事件的概率。

为什么是这么一个表达式呢?想具体了解的可以参考如下的讨论:

知乎-香农的信息论究竟牛在哪里?

香农信息量_weixinhum-CSDN博客

 

信息熵

由香农信息量可以知,对于一个已知概率的事件,需要多少的数据量能完整地把它表达清楚。

信息熵则刻画的是,对于整个系统而言,表达系统整体所需要的信息量。比如,dddLdddYdddXddd 这段字母,虽然 L、Y 和 X 的香农信息量比较大,但他们出现的次数明显要比 d 少很多,因此需要信息熵来评估整体系统的信息量。

信息熵=事件香农信息量×事件概率

对于连续随机变量,信息熵 H(p) 可表示为:

H(p)=-\int p(x)\log p(x)dx

对于离散随机变量,信息熵 H(p) 可表示为:

H(p)=-\sum_{i=1}^n p(x)\log p(x)

注意:前面在说明的时候 log 是以 2 为底的,但是一般情况下在神经网络中,默认以指数 e 为底,这样算出来的香农信息量虽然不是最小的可用于完整表示事件的比特数,但对于信息熵的含义来说是区别不大的。其实只要这个底数是大于 1 的,都能用来表达信息熵的大小。

举例如下:

zbbbb 的信息熵为:

zrcdf  的信息熵为:

计算所得第二个值较大,即信息量较大,显然观察 zrcdf 的信息量会大于 zbbbb 的信息量,计算符合观察。

 

交叉熵

假设 \widetilde{p}(x) 是用来拟合 p(x) 的概率分布,x 属于 p 的样本空间,交叉熵用于衡量 \widetilde{p} 在拟合 p 的过程中,用于消除不确定性而充分使用的信息量大小。

注意:理解为衡量 \widetilde{p} 为了拟合 p 所付出的努力。

另外,交叉熵定义里的 “充分使用” 和信息熵定义里的 “所需”的区别,“充分使用” 不一定能达到全部,“所需” 是指全部。

由于在每一个点 X=x\widetilde{p} 的香农信息量为 -log_2\widetilde{p}(x),也就是在点 X=x 处,\widetilde{p} 消除不确定性而充分使用的信息量为-log_2\widetilde{p}(x)

注意:理解为衡量 \widetilde{p}X=x 处为了拟合p所作的努力),那么就可以计算出在整个样本空间上 \widetilde{p} 消除不确定性而充分使用的总体信息量,即 -log_2\widetilde{p}(x) 的数学期望,由于每个 x 的权重为 p(x),因此交叉熵 H(p,\widetilde{p}) 为:

H(p,\widetilde{p})=-\int p(x)\log \widetilde{p}(x)dx

 

相对熵、KL 散度

又被称为 KL 散度或信息散度,是两个概率分布间差异的非对称性度量 。

在信息论中,相对熵等价于两个概率分布的信息熵的差值,若其中一个概率分布为真实分布,另一个为理论(拟合)分布,则此时相对熵等于交叉熵与真实分布的信息熵之差,表示使用理论分布拟合真实分布时产生的信息损耗 。

相对熵的定义为:

D_{KL}(p||\widetilde{p})=\sum_{i=1}^n[p(x_i)\log p(x_i)-p(x_i)\log \widetilde{p}(x_i)]=\sum_{i=1}^n[p(x_i)\log \frac{p(x_i)}{\widetilde{p}(x_i)}]

其中,p 为真实概率分布,\widetilde{p} 为预测概率分布

该公式的字面上含义就是:真实事件信息熵拟合事件香农信息量与真实事件概率的乘积 的差的累加。

当预测的概率分布于真实事件的概率分布相似时,KL 散度的绝对值就会比较小;反之,变大。

 

相对熵是不对称的。

但为什么有缺点,深度学习还要用 KL 散度呢?参考博客:

https://blog.csdn.net/weixinhum/article/details/85064685

 

这篇关于神经网络数学基础-香浓信息量、信息熵、交叉熵、相对熵(KL散度)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/692319

相关文章

从基础到高级详解Go语言中错误处理的实践指南

《从基础到高级详解Go语言中错误处理的实践指南》Go语言采用了一种独特而明确的错误处理哲学,与其他主流编程语言形成鲜明对比,本文将为大家详细介绍Go语言中错误处理详细方法,希望对大家有所帮助... 目录1 Go 错误处理哲学与核心机制1.1 错误接口设计1.2 错误与异常的区别2 错误创建与检查2.1 基础

Spring的基础事务注解@Transactional作用解读

《Spring的基础事务注解@Transactional作用解读》文章介绍了Spring框架中的事务管理,核心注解@Transactional用于声明事务,支持传播机制、隔离级别等配置,结合@Tran... 目录一、事务管理基础1.1 Spring事务的核心注解1.2 注解属性详解1.3 实现原理二、事务事

Java中最全最基础的IO流概述和简介案例分析

《Java中最全最基础的IO流概述和简介案例分析》JavaIO流用于程序与外部设备的数据交互,分为字节流(InputStream/OutputStream)和字符流(Reader/Writer),处理... 目录IO流简介IO是什么应用场景IO流的分类流的超类类型字节文件流应用简介核心API文件输出流应用文

从基础到高级详解Python数值格式化输出的完全指南

《从基础到高级详解Python数值格式化输出的完全指南》在数据分析、金融计算和科学报告领域,数值格式化是提升可读性和专业性的关键技术,本文将深入解析Python中数值格式化输出的相关方法,感兴趣的小伙... 目录引言:数值格式化的核心价值一、基础格式化方法1.1 三种核心格式化方式对比1.2 基础格式化示例

redis-sentinel基础概念及部署流程

《redis-sentinel基础概念及部署流程》RedisSentinel是Redis的高可用解决方案,通过监控主从节点、自动故障转移、通知机制及配置提供,实现集群故障恢复与服务持续可用,核心组件包... 目录一. 引言二. 核心功能三. 核心组件四. 故障转移流程五. 服务部署六. sentinel部署

从基础到进阶详解Python条件判断的实用指南

《从基础到进阶详解Python条件判断的实用指南》本文将通过15个实战案例,带你大家掌握条件判断的核心技巧,并从基础语法到高级应用一网打尽,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一... 目录​引言:条件判断为何如此重要一、基础语法:三行代码构建决策系统二、多条件分支:elif的魔法三、

Python WebSockets 库从基础到实战使用举例

《PythonWebSockets库从基础到实战使用举例》WebSocket是一种全双工、持久化的网络通信协议,适用于需要低延迟的应用,如实时聊天、股票行情推送、在线协作、多人游戏等,本文给大家介... 目录1. 引言2. 为什么使用 WebSocket?3. 安装 WebSockets 库4. 使用 We

从基础到高阶详解Python多态实战应用指南

《从基础到高阶详解Python多态实战应用指南》这篇文章主要从基础到高阶为大家详细介绍Python中多态的相关应用与技巧,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、多态的本质:python的“鸭子类型”哲学二、多态的三大实战场景场景1:数据处理管道——统一处理不同数据格式

MySQL数据类型与表操作全指南( 从基础到高级实践)

《MySQL数据类型与表操作全指南(从基础到高级实践)》本文详解MySQL数据类型分类(数值、日期/时间、字符串)及表操作(创建、修改、维护),涵盖优化技巧如数据类型选择、备份、分区,强调规范设计与... 目录mysql数据类型详解数值类型日期时间类型字符串类型表操作全解析创建表修改表结构添加列修改列删除列

Python 函数详解:从基础语法到高级使用技巧

《Python函数详解:从基础语法到高级使用技巧》本文基于实例代码,全面讲解Python函数的定义、参数传递、变量作用域及类型标注等知识点,帮助初学者快速掌握函数的使用技巧,感兴趣的朋友跟随小编一起... 目录一、函数的基本概念与作用二、函数的定义与调用1. 无参函数2. 带参函数3. 带返回值的函数4.