从概率角度出发，对交叉熵和 KL 散度进行分析和推导

本文主要是介绍从概率角度出发，对交叉熵和 KL 散度进行分析和推导，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

🍉 CSDN 叶庭云：https://yetingyun.blog.csdn.net/

交叉熵是一个衡量两个概率分布之间差异的指标。在机器学习中，这通常用于衡量真实标签的分布与模型预测分布之间的差异。对于两个概率分布 $P$ 和 $Q$ ，其中 $P$ 是真实分布， $Q$ 是模型预测分布，交叉熵的定义为：

$-\sum_{x} P (x) \log Q (x)$

这里的求和是对所有可能的事件 $x$ 进行的。

KL 散度用于衡量两个概率分布之间的非对称差异。对于真实概率分布 $P$ 和模型预测分布 $Q$ ，KL 散度定义为：

$D_{KL}(P \| Q) = \sum_{x} P (x) \log \frac {P (x)}{Q (x)}$

这同样是对所有可能的事件 $x$ 进行求和。KL 散度是一种测量模型预测分布 $Q$ 如何偏离实际分布 $P$ 的评价标准。

在计算机实现中，交叉熵通常应用于分类问题。对于一个有 $C$ 个类的问题，如果 $y$ 是一个使用 one-hot 编码 的标签向量， $\hat {y}$ 是模型的输出概率向量，则交叉熵可以计算为：

$\hat {y}) = -\sum_{i=1}^{C} y_i \log \hat {y}_i$

在实际应用中，计算 $D_{KL}(P \| Q)$ 通常需要保证 $Q (x)$ 对于所有 $x$ 都不为零（即 $Q (x) > 0$ ），以避免在计算 $\log \frac {P (x)}{Q (x)}$ 时出现数学上的未定义行为。

在信息论和机器学习中，交叉熵和 KL 散度都被广泛使用：

信息论：交叉熵可以被理解为在错误地假设概率分布是 $Q$ 而不是 $P$ 的情况下，描述事件平均所需的比特数。KL 散度则衡量了用分布 $Q$ 来编码来自分布 $P$ 的数据所需的额外信息量。
机器学习：交叉熵常用作损失函数，帮助模型学习以逼近数据的真实分布。KL 散度用于如变分自编码器（VAE）等模型中，以确保潜在空间的分布接近先验分布。