【机器学习基础】概率分布之变量

本文主要是介绍【机器学习基础】概率分布之变量，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

本系列为《模式识别与机器学习》的读书笔记。

一，二元变量

1，二项分布

考虑⼀个⼆元随机变量 $\in \{0, 1\}$ 。例如， $x$ 可能描述了扔硬币的结果， $x = 1$ 表⽰“正⾯”， $x = 0$ 表⽰反⾯。我们可以假设有⼀个损坏的硬币，这枚硬币正⾯朝上的概率未必等于反⾯朝上的概率。 $x = 1$ 的概率被记作参数 $\mu$ ，因此有：
$p(x=1|\mu) = \mu\tag{2.1}$
其中 $0\le \mu\le 1$ 。 $x$ 的概率分布因此可以写成：
$\text {Bern}(x|\mu) = \mu^{x}(1-\mu)^{1-x}\tag{2.2}$
这被叫做伯努利分布（Bernoulli distribution）。容易证明，这个分布是归⼀化的，并且均值和⽅差分别为：
$\mathbb{E}[x] = \mu\tag{2.3}$

$\text{var}[x] = \mu(1-\mu)\tag{2.4}$

如图 2.1：⼆项分布关于 $m$ 的函数的直⽅图，其中 $N = 10$ 且 $\mu = 0.25$ 。
二项分布
假设我们有⼀个 $x$ 的观测值的数据集 $\mathcal{D} = \{x_1 ,\dots, x_N\}$ 。假设每次观测都是独⽴地从 $\mu)$ 中抽取的，因此可以构造关于 $\mu$ 的似然函数：
$p(\mathcal{D}|\mu) = \prod_{n=1}^{N}p(x_{n}|\mu) = \prod_{n=1}^{N}\mu^{x_{n}}(1-\mu)^{1-x_{n}}\tag{2.5}$
其对数似然函数：
$\ln p(\mathcal{D}|\mu) = \sum_{n=1}^{N}\ln p(x_{n}|\mu) = \sum_{n=1}^{N}\{ x^n \ln \mu + (1-x^n) \ln (1-\mu)\}\tag{2.6}$
在公式(2.6)中，令 $\ln p(\mathcal{D}|\mu)$ 关于 $\mu$ 的导数等于零，就得到了最⼤似然的估计值，也被称为样本均值（sample mean）：
$\mu_{ML} = \frac{1}{N} \sum_{n=1}^{N} x_{n}\tag{2.7}$
求解给定数据集规模