图解AI数学基础(3) | 信息论（要点速查清单·完结）

本文主要是介绍图解AI数学基础(3) | 信息论（要点速查清单·完结），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

作者：韩信子@ShowMeAI
教程地址：https://www.showmeai.tech/tutorials/83
本文地址：https://www.showmeai.tech/article-detail/164
声明：版权所有，转载请联系平台与作者并注明出处

信息论是运用概率论与数理统计的方法研究信息、信息熵、通信系统、数据传输、密码学、数据压缩等问题的应用数学学科。信息论中包含的知识和概念在机器学习中也有应用，典型的例子是其核心思想『熵』的应用。

例如，决策树模型ID3、C4.5中是利用信息增益来确定划分特征而逐步生长和构建决策树的；其中，信息增益就是基于信息论中的熵。

1.熵（Entropy）

熵是1854年由克劳休斯提出的一个用来度量体系混乱程度的单位，并阐述了热力学第二定律熵增原理：在孤立系统中，体系与环境没有能量交换，体系总是自发的向混乱度增大的方向变化，使整个系统的熵值越来越大。

熵越大，表征的随机变量的不确定度越大，其含有的信息量越多。

熵 Entropy

随机变量 $X$ 可能的取值为 $\{x_{1},x_{2} ,\dots ,x_{n} \}$ ，其概率分布为 $P(X=x_{i}) =p_{i}$ ， $\dots, n$ ，则随机变量 $X$ 的熵定义为 $H (X)$ ：

$\begin{aligned} H(X) =&-\sum_{i=1}^{n}{P(x_{i}) logP(x_{i})} \\ &=\sum_{i=1}^{n}{P(x_{i}) \frac{1}{logP(x_{i})}} \end{aligned}$

2.联合熵（Joint Entropy ）

联合熵 Joint Entropy

联合熵，就是度量一个联合分布的随机系统的不确定度。分布为 $P (x, y)$ 的一对随机变量 $(X, Y)$ ，其联合熵定义为：

$\begin{aligned} H(X,Y) &=-\sum_{i=1}^{n}{\sum_{j=1}^{n}{P(x_{i},y_{j})}logP(x_{i},y_{j})} \\ &=E[ \log\frac{1}{p(x,y)} ] \end{aligned}$

联合熵的物理意义，是观察一个多随机变量的随机系统获得的信息量，是对二维随机变量 $(X, Y)$ 不确定性的度量。

3.条件熵（Conditional Entropy）

$Y$ 的条件熵是指『在随机变量 $X$ 发生的前提下，随机变量 $Y$ 发生新带来的熵』，用 $\mid X)$ 表示：

$\mid X) =-\sum_{x,y}{P(x,y) logP(y \mid x)}$

条件熵 Conditional Entropy

条件熵的物理意义，在得知某一确定信息的基础上获取另外一个信息时所获得的信息量，用来衡量在已知随机变量的 $X$ 条件下，随机变量 $Y$ 的不确定性。

4.相对熵（Kullback–Leibler divergence）

相对熵在信息论中用来描述两个概率分布差异的熵，叫作KL散度、相对熵、互熵、交叉熵、信息增益。对于一个离散随机变量的两个概率分布 $P$ 和 $Q$ 来说，它们的相对熵定义为：

$\parallel Q) =\sum_{i=1}^{n}{P(x_{i}) log\frac{P(x_{i})}{Q(x_{i})}}$
相对熵 Kullback–Leibler divergence

注意：公式中 $P$ 表示真实分布， $Q$ 表示 $P$ 的拟合分布， $\parallel Q) ≠ D(Q \parallel P)$ 。

相对熵表示当用概率分布 $Q$ 来拟合真实分布 $P$ 时，产生的信息损耗。

5.交叉熵（Cross Entropy）

交叉熵 Cross Entropy

交叉熵在信息论中用于度量两个概率分布间的差异性。将上述相对熵（KL散度）公式拆开，可以得到 相对熵=交叉熵-熵。

$\begin{aligned} D(P || Q) &=\sum_{i=1}^{n} P\left(x_{i}\right) \log \left(\frac{P\left(x_{i}\right)}{Q\left(x_{i}\right)}\right) \\ &= \sum_{i=1}^{n} P\left(x_{i}\right) \log \left(P\left(x_{i}\right)\right) -\sum_{i=1}^{n} P\left(x_{i}\right) \log \left(Q\left(x_{i}\right)\right) \\ &=- H(P(x)) +\left[-\sum_{i=1}^{n} P\left(x_{i}\right) \log \left(Q\left(x_{i}\right)\right)\right] \end{aligned}$

因此，对于一个离散随机变量的两个概率分布 $P$ 和 $Q$ 来说，它们的交叉熵定义为：

$H\left( P,Q \right) =-\sum_{i=1}^{n}{P\left( x_{i} \right) log({Q\left( x_{i} \right) } } )$

使用机器学习训练网络时，输入数据与标签通常是确定的。那么，真实概率分布 $P (x)$ 是确定的，因此熵 $H (P (x))$ 是一个可以确定的常量。

由上述推导可得，交叉熵 = 相对熵+熵 = 相对熵+一个常量。所以交叉熵也可以用来描述真实概率分布 $P (x)$ 与预测概率分布 $Q (x)$ 的差异（值越小表示预测结果越好），且交叉熵的计算公式更简单。因此在机器学习中，通常使用交叉熵损失函数来计算Loss。

6.互信息（Mutual Information）

互信息是信息论里一种有用的信息度量方式，它可以看成是一个随机变量中包含的关于另一个随机变量的信息量，或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。

互信息的计算方式定义如下：

$=\sum_{x\in X}^{}{\sum_{y\in Y}^{}{P(x,y)} log\frac{P(x,y)}{P(x) P(y)}}$

互信息 Mutual Information

7.常用等式（useful equations）

1）条件熵、联合熵与熵之间的关系

$\mid X) =H(X,Y) - H(X)$

推导过程如下：

$\begin{aligned} H(X, Y)-H(X) &= -\sum_{x, y} p(x, y) \log p(x, y)+\sum_{x} p(x) \log p(x) \quad \quad \text{(1)} \\ &=-\sum_{x, y} p(x, y) \log p(x, y)+\sum_{x}(\sum_{y} p(x, y)) \log p(x) \quad \text{(2)} \\ &=-\sum_{x, y} p(x, y) \log p(x, y)+\sum_{x, y} p(x, y) \log p(x) \quad \quad \text{(3)} \\ &=-\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x)} \quad \quad \text{(4)} \\ &=-\sum_{x, y} p(x, y) \log p(y \mid x) \quad \quad \text{(5)} \end{aligned}$

第（1）行推到第（2）行的依据是边缘分布 $P (x)$ 等于联合分布 $P (x, y)$ 的和；
第（2）行推到第（3）行的依据是把公因子 $l o g P (x)$ 乘进去，然后把 $x, y$ 写在一起；
第（3）行推到第（4）行的依据是：因为两个 $\sigma$ 都有 $P (x, y)$ ，故提取公因子 $P (x, y)$ 放到外边，然后把里边的 $- (l o g P (x, y) - l o g P (x))$ 写成 $- l o g (P (x, y) / P (x))$ ；
第（4）行推到第（5）行的依据是： $\ast P(y \mid x)$ ，故 $\mid x)$ 。

2）条件熵、联合熵与互信息之间的关系

$\mid X) =H(Y) -I(X,Y)$

推导过程如下：

$\begin{aligned} H(Y)-I(X, Y) =&-\sum_{y} p(y) \log p(y)-\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)} \\ &=-\sum_{y}(\sum_{x} p(x, y)) \log p(y)-\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)} \\ &=-\sum_{x, y} p(x, y) \log p(y)-\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)} \\ &=-\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x)} \\ &=-\sum_{x, y} p(x, y) \log p(y \mid x) \\ &=H(Y \mid X) \end{aligned}$