生成模型、高斯判别分析、朴素贝叶斯——斯坦福CS229机器学习个人总结（二）

本文主要是介绍生成模型、高斯判别分析、朴素贝叶斯——斯坦福CS229机器学习个人总结（二），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1、生成学习算法（Generative Learning Algorithm）

1.1、判别模型与生成模型

判别模型：训练出一个总模型，把新来的样本放到这个总模型中，直接判断这个新样本是猫还是狗。

生成模型：先训练出一个猫的模型，再训练出一个狗的模型。把新来的样本放到猫的模型里，看它生成的概率是多少，再把它放到狗的模型里，看它生成的概率是多少。如果用猫的模型生成的概率比较大，就把新样本判断为猫，如果用狗的模型生成的概率比较大，就把新样本判断为狗。

-	判别模型	生成模型
区别	反映异类数据之间的差异	反映同类数据之间的相似度
形式化	直接对 $p(y\mid x)$ 建模	对 $p(x\mid y)$ 建模，再求 $p(y\mid x)$
生产性能	高（直接判断）	低（逐个生成概率并对比）
学习难度	简单，容易学习	复杂，较难学习
转化关系	判别模型不能转化为生成模型	生成模型能转化为判别模型
其他	黑盒，不可视；能清晰分辨出各类差异特征；使用范围更广	研究单类问题更灵活；可以把整个场景描述出来；要满足特定条件才能使用
常见模型	logistic回归； SVM；神经网络等	高斯判别分析；贝叶斯算法；隐马尔科夫模型等

1.2、生成模型的一般做法

因为目前还没有做过相关工程，而且本人也还只是处于学习阶段，下面只是一些自己的总结，若有错误的地方，请指正。
判别模型是直接对 $p(y\mid x)$ 建模进行估计，生成模型是先求 $p(x\mid y)$ 再求 $p(y\mid x)$ ，它们之间是怎么转换的？
首先引出贝叶斯规则：

p (y ∣ x) = p ( x ∣ y ) p ( y ) p ( x ) (1)

$p(y\mid x)=\frac{p(x\mid y)p(y)}{p(x)}\tag{1}$
再配合上联合概率我一般是这么记的，这样就可以随便切来切去不会搞混了：

p (y ∣ x) p (x) = p (x, y) = p (x ∣ y) p (y) (2)

$p(y\mid x)p(x)=p(x,y)=p(x\mid y)p(y)\tag{2}$
上面说了，我们需要生成一个猫的模型：

p (y = 猫 ∣ x) = p ( x ∣ y = 猫 ) p ( y = 猫 ) p ( x ) (3)

$\begin{align} p(y=猫\mid x)=\frac{p(x\mid y=猫)p(y=猫)}{p(x)}\tag{3} \end{align}$
再生成一个狗的模型：

p (y = 狗 ∣ x) = p ( x ∣ y = 狗 ) p ( y = 狗 ) p ( x ) (4)

$\begin{align} p(y=狗\mid x)=\frac{p(x\mid y=狗)p(y=狗)}{p(x)}\tag{4} \end{align}$
然后比较是

p(y=猫∣x) $p(y=猫\mid x)$ “这个样本是猫的概率”更大，还是

p(y=狗∣x) $p(y=狗\mid x)$ “这个样本是狗的概率”更大。
我们可以看到（3）式和（4）式的分母是一样的，就只比较分子的大小，所以问题就变成了是

p(x∣y=猫)p(y=猫) $p(x\mid y=猫)p(y=猫)$ 更大还是

p(x∣y=狗)p(y=狗) $p(x\mid y=狗)p(y=狗)$ 更大。
形式化一下就是：

arg max y p (y ∣ x) = arg max y p (x ∣ y) p (y) (5)

$\arg \max_y p(y\mid x)=\arg \max_yp(x\mid y)p(y)\tag{5}$

p(y) $p(y)$ ，先验概率（Prior），表示：对于给定观测数据，一个猜测是好是坏，取决于“这个猜测本身独立的可能性大小”，比如猫或者狗在我们的生活中出现的频率（这个看起来是一样的，但如果是狗和狼，就有

p(y=狗)>p(y=狼) $p(y=狗)>p(y=狼)$ ，因为狼比狗更常见）；

p(x∣y) $p(x\mid y)$ ，似然性（Likelihood），表示：“这个猜测生成我们观测到的数据的可能性大小”。（如果样本里有一项特征表达出“鼻子较长”这个信息，那么假设样本是猫的同时观察到“鼻子较长”，和假设样本是狗的同时观察到“鼻子较长”的可能性是不一样的，明显后者的可能性更高）

每一个猜测都有属于自己的先验概率 $p(y=n)$ 与似然性 $p(x\mid y=n)$ 的乘积，用来对 $p(y=n\mid x)$ 做估计，表示“同一组输入产生的每个猜测的可能性大小”。
比如同一组数据 $x$ ，通过对 $p(y=n)p(x\mid y=n)$ 的建模与计算，产生了 $p(y=猫\mid x)$ 、 $p(y=狗\mid x)$ 、 $p(y=狼\mid x)$ 三个概率，通过对比这三个概率的大小，选取概率最大的那个猜测作为最终的预测结果，这就是生成模型的一般做法。

2、高斯判别分析（Gaussian Discriminant analysis）

高斯判别分析（GDA）名字中虽然有“判别”二字，却是地地道道的生成算法。

GDA解决的是连续型随机变量的分类问题。

什么是连续型随机变量呢？举两个例子：
公交车15分钟一趟，某人的等车时间 $x$ 是区间 $\left[0,15\right)$ 中的一个数， $x$ 是连续型随机变量，因为 $x$ 可以取小数甚至无理数。
抛20枚硬币，硬币朝上的数量 $x$ 只能取 $0$ ~ $20$ 之间的整数，不能取 $0.1,\sqrt3$ 这样的小数或者无理数，所以这里的 $x$ 是离散型随机变量。

而且只有连续型随机变量的分布函数可以积分，得到概率密度函数，这样才能用多元高斯分布对 $p(x\mid y)$ 建模，进而使用高斯判别式啊。

下面给出高斯判别分析的假设：

y $y$ ~

Bernoulli(ϕ) $Bernoulli(\phi)$

x∣y=0 $x\mid y=0$ ~

N(μ0,Σ) $N(\mu_0,\Sigma)$

x∣y=1 $x\mid y=1$ ~

N(μ1,Σ) $N(\mu_1,\Sigma)$
接着给出一个

k $k$ 维向量

x $x$ ，以

(μ,Σ) $(\mu,\Sigma)$ 为参数的多元高斯分布原始定义为：

f (x) = 1 2 π k | Σ | - - - - - - \sqrt exp (- 1 2 (x - μ) T Σ - 1 (x - μ)) (6)

$f(x)=\frac{1}{\sqrt{2\pi^k\left|\Sigma \right|}}\exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))\tag{6}$
由此可以得到下面的分布（

x $x$ 是n维向量）：

p (y) p (x ∣ y = 0) p (x ∣ y = 1) = ϕ y (1 - ϕ) 1 - y = 1 2 π n | Σ | - - - - - - \sqrt exp (- 1 2 (x - μ 0) T Σ - 1 (x - μ 0)) = 1 2 π n | Σ | - - - - - - \sqrt exp (- 1 2 (x - μ 1) T Σ - 1 (x - μ 1)) (7)

$\begin{align} p(y) & = \phi^y(1-\phi)^{1-y}\\ p(x\mid y=0)& = \frac{1}{\sqrt{2\pi^n\left|\Sigma \right|}}\exp(-\frac{1}{2}(x-\mu_0)^T\Sigma^{-1}(x-\mu_0)) \\ p(x\mid y=1)& = \frac{1}{\sqrt{2\pi^n\left|\Sigma \right|}}\exp(-\frac{1}{2}(x-\mu_1)^T\Sigma^{-1}(x-\mu_1))\tag{7} \end{align}$
这里有先验概率

p(y) $p(y)$ （因为是伯努利分布，所以

y $y$ 的取值是0或者1），具体猜测的似然性

p(x∣y=0) $p(x\mid y=0)$ 与

p(x∣y=1) $p(x\mid y=1)$ ，在生成模型中，会对

p(y=n)p(x∣y=n) $p(y=n)p(x\mid y=n)$ 进行计算，分别得到输入

x $x$ 被分类为0与被分类为1的概率，然后再对这两个概率进行比较，取较大的那个最为分类结果。
而这些分布里面一共有

ϕ,μ0,μ1,Σ $\phi,\mu_0,\mu_1,\Sigma$ 4个参数，如果我们求得了这几个参数，就可以对实际的输入

x $x$ 进行计算了。
进一步地，得到我们的似然函数（m是样本数量）：

l (ϕ, μ 0, μ 1, Σ) = log \prod i = 1 m p (x (i), y (i); ϕ, μ 0, μ 1, Σ) = log \prod i = 1 m p (x (i) ∣ y (i); μ 0, μ 1, Σ) p (y (i); ϕ) (8)

$\begin{align} l(\phi,\mu_0,\mu_1,\Sigma)& = \log\prod_{i=1}^m p(x^{(i)},y^{(i)};\phi,\mu_0,\mu_1,\Sigma)\\ & = \log\prod_{i=1}^m p(x^{(i)}\mid y^{(i)};\mu_0,\mu_1,\Sigma)p(y^{(i)};\phi) \tag{8} \end{align}$
然后通过最大似然估计得到我们的参数：

ϕ μ 0 μ 0 Σ = 1 m \sum i = 1 m I {y (i) = 1} = \sum m i = 1 I { y ( i ) = 0 } x ( i ) \sum m i = 1 I { y ( i ) = 0 } = \sum m i = 1 I { y ( i ) = 1 } x ( i ) \sum m i = 1 I { y ( i ) = 1 } = 1 m \sum i = 1 m (x (i) - μ (i) y) (x (i) - μ (i) y) T (9)

$\begin{align} \phi& = \frac{1}{m}\sum_{i=1}^m I\begin{Bmatrix} y^{(i)}=1 \end{Bmatrix} \\ \mu_0& = \frac{\sum_{i=1}^m I\begin{Bmatrix} y^{(i)}=0\end{Bmatrix}x^{(i)}}{\sum_{i=1}^m I\begin{Bmatrix} y^{(i)}=0\end{Bmatrix}}\\ \mu_0& = \frac{\sum_{i=1}^m I\begin{Bmatrix} y^{(i)}=1\end{Bmatrix}x^{(i)}}{\sum_{i=1}^m I\begin{Bmatrix} y^{(i)}=1\end{Bmatrix}}\\ \Sigma&=\frac{1}{m}\sum_{i=1}^m(x^{(i)}-\mu_y^{(i)})(x^{(i)}-\mu_y^{(i)})^T \tag{9} \end{align}$

ϕ $\phi$ ：

y $y$ 的取值是1的样本在整个样本集中的比例；

μ0 $\mu_0$ ：

y $y$ 的取值是0的特征均值；

μ1 $\mu_1$ ：

y $y$ 的取值是1的特征均值；

Σ $\Sigma$ ：样本特征方差均值。
下面是讲义里给出的一个分类结果的图：
这里写图片描述

3、朴素贝叶斯（Naive Bayes）

3.1、具体例子-文本分类

GDA针对的是特征向量 $x$ 是连续值的问题，朴素贝叶斯针对的是特征向量 $x$ 是离散值的问题。但是对于特征是连续值的情况，我们也可以采用分段的方法来将连续值转化为离散值：

朴素贝叶斯算法的标准应用也是最常见的的应用就是文本分类问题，例如邮件是否为垃圾邮件的分类。

朴素贝叶斯也是生成模型，按照前面提到的生成模型的一般做法，我们应该先计算出一封邮件是垃圾邮件的概率，再计算出这封邮件不是垃圾邮件的概率，取较大的那个概率为分类结果。

对此，我们假设 $y=1$ 表示分类结果为垃圾邮件， $y=0$ 表示分类结果为非垃圾邮件，向量 $x$ 表示需要判断的邮件本身，它由 $n$ 个单词组成。

那么，这封邮件是垃圾邮件的概率为：

p (y = 1 ∣ x) = p ( x ∣ y = 1 ) p ( y = 1 ) p ( x ) = p ( x ∣ y = 1 ) p ( y = 1 ) p ( x ∣ y = 1 ) p ( y = 1 ) + p ( x ∣ y = 0 ) p ( y = 0 ) (10)

$\begin{align} p(y=1\mid x)& =\frac{p(x\mid y=1)p(y=1)}{p(x)} \\ & = \frac{p(x\mid y=1)p(y=1)}{p(x\mid y=1)p(y=1)+p(x\mid y=0)p(y=0)} \tag{10} \end{align}$
同样地，我们可以得到这封邮件不是垃圾邮件的概率为：

p (y = 0 ∣ x) = p ( x ∣ y = 0 ) p ( y = 0 ) p ( x ) = p ( x ∣ y = 0 ) p ( y = 0 ) p ( x ∣ y = 1 ) p ( y = 1 ) + p ( x ∣ y = 0 ) p ( y = 0 ) (11)

$\begin{align} p(y=0\mid x)& =\frac{p(x\mid y=0)p(y=0)}{p(x)} \\ & = \frac{p(x\mid y=0)p(y=0)}{p(x\mid y=1)p(y=1)+p(x\mid y=0)p(y=0)} \tag{11} \end{align}$
又因为要比较这两者的大小，它们的分母又一样，所以我们只需要比较

p(x∣y=1)p(y=1) $p(x\mid y=1)p(y=1)$ 与

p(x∣y=0)p(y=0) $p(x\mid y=0)p(y=0)$ 的大小即可得到分类结果。

目前为止都还只是很一般性的推导，朴素贝叶斯体现在哪里？在邮件 $x$ 上。
前面说到要用向量 $x$ 来表示一封邮件，具体要怎么表示？然后怎么对上面的一般性式子做进一步的处理？

讲义里给出了两种用向量表示邮件的方法，进而推导出了两种模型，一种称为多元伯努利事件模型（Multivariate Bernoulli Event Model，以下简称NB-MBEM），另一种称为多项式事件模型（Multivariate Event Model，以下简称NB-MEM），下面就对这两个模型进行说明。

3.2、文本表示方法一——多元伯努利事件模型（NB-MBEM）

在多元伯努利模型下（NB-MBEM），一封邮件的特征向量可以表示成如下形式：

x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x 1 x 2 x 3 ⋮ x 4123 ⋮ x 50000 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 100 ⋮ 1 ⋮ 0 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ a a a r d v a r k c o n o n y ⋮ b u y ⋮ q w e r r (12)

$x=\left[ \begin{matrix}x_1\\x_2\\x_3\\\vdots\\x_{4123}\\\vdots\\x_{50000} \end{matrix}\right]=\left[ \begin{matrix}1\\0\\0\\\vdots\\1\\\vdots\\0 \end{matrix}\right] \begin{matrix}a\\aardvark\\conony\\\vdots\\buy\\\vdots\\qwerr\end{matrix}\tag{12}$
在此模型下，向量

x $x$ 是一本词典，它的每一个元素都是一个单词，对于词典中的每一个词都有一个向量中对应的元素

xi $x_i$ 作为标记，

xi $x_i$ 的取值为0或者1，1表示邮件中这个词出现过，0表示这个词没有出现过。

接着因为我们要求 $p(x\mid y)$ ，假设 $x$ 中的特征是条件独立的（条件独立与独立不同），这个称为朴素贝叶斯假设。

P (X, Y ∣ Z) = P (X ∣ Z) P (Y ∣ Z) (13)

$P(X,Y\mid Z)=P(X\mid Z)P(Y\mid Z)\tag{13}$
上面的式子表示，在给定Z的情况下，X与Y条件独立。

还要引出链式规则：

P (X 1, X 2, \dots, X n) = P (X 1) P (X 2 ∣ X 1) \dots P (X n ∣ X 1, X 2, \dots, X n - 1) (14)

$P(X_1,X_2,\cdots,X_n)=P(X_1)P(X_2\mid X_1)\cdots P(X_n\mid X_1,X_2,\cdots,X_{n-1})\tag{14}$
可以看到，当

n=2 $n=2$ 的时候，它的形式跟（2）式是一样的，当

n=3 $n=3$ 的时候，我们可以来推导一下：

P (X 1, X 2, X 3) = P (X 3, X 1, X 2) = P (X 3 ∣ X 1, X 2) P (X 1, X 2) = P (X 3 ∣ X 1, X 2) P (X 2, X 1) = P (X 3 ∣ X 1, X 2) P (X 2 ∣ X 1) P (X 1) = P (X 1) P (X 2 ∣ X 1) P (X 3 ∣ X 1, X 2) (15)

$\begin{align} P(X_1,X_2,X_3)& =P(X_3,X_1,X_2) \\ &= P(X_3\mid X_1,X_2) P(X_1,X_2)\\&=P(X_3\mid X_1,X_2) P(X_2,X_1)\\&=P(X_3\mid X_1,X_2) P(X_2\mid X_1)P(X_1)\\&=P(X_1)P(X_2\mid X_1)P(X_3\mid X_1,X_2) \tag{15} \end{align}$
这跟式（14）的形式是一致的。

由链式规则与条件独立假设，我们对 $p(x\mid y)$ 有如下展开：

p (x ∣ y) = p (x 1, \dots, x 50000 ∣ y) = p (x 1 ∣ y) p (x 2 ∣ y, x 1) p (x 3 ∣ y, x 1, x 2) \dots p (x 50000 ∣ y, x 1, \dots, x 49999) = p (x 1 ∣ y) p (x 2 ∣ y) p (x 3 ∣ y) \dots p (x 50000 ∣ y) = \prod j = 1 n p (x j ∣ y) (16)

$\begin{align} p(x\mid y)& =p(x_1,\cdots,x_{50000}\mid y) \\ &= p(x_1\mid y)p(x_2\mid y,x_1)p(x_3\mid y,x_1,x_2)\cdots p(x_{50000}\mid y,x_1,\cdots ,x_{49999})\\&=p(x_1\mid y)p(x_2\mid y)p(x_3\mid y)\cdots p(x_{50000}\mid y)\\&=\prod_{j=1}^n p(x_j\mid y) \tag{16} \end{align}$
这里的

xj $x_j$ 只能取值为0或者1，所以

xj∣y $x_j\mid y$ 实际上是一个伯努利分布。

回到我们的式（10）与式（11），我们有（这里省去了分母）：

p (y = 1 ∣ x) = p (x ∣ y = 1) p (y = 1) = (\prod j = 1 n p (x j = 1 ∣ y = 1)) p (y = 1) (17)

$\begin{align} p(y=1\mid x)& =p(x\mid y=1)p(y=1) \\ & = (\prod_{j=1}^n p(x_j=1\mid y=1))p(y=1) \tag{17} \end{align}$

p (y = 0 ∣ x) = p (x ∣ y = 0) p (y = 0) = (\prod j = 1 n p (x j = 1 ∣ y = 0)) p (y = 0) = (\prod j = 1 n p (x j = 1 ∣ y = 0)) (1 - p (y = 1)) (18)

$\begin{align} p(y=0\mid x)& =p(x\mid y=0)p(y=0) \\ & = (\prod_{j=1}^n p(x_j=1\mid y=0))p(y=0) \\ &= (\prod_{j=1}^n p(x_j=1\mid y=0))(1-p(y=1)) \tag{18} \end{align}$
这样我们就得到了下面的参数：

p (y = 1) = ϕ y (19)

$p(y=1)=\phi_y\tag{19}$

p (x j = 1 ∣ y = 1) = ϕ j ∣ y = 1 (20)

$p(x_j=1\mid y=1)=\phi_{j\mid y=1}\tag{20}$

p (x j = 1 ∣ y = 0) = ϕ j ∣ y = 0 (21)

$p(x_j=1\mid y=0)=\phi_{j\mid y=0}\tag{21}$
又到了求参数的时间，我们希望模型在训练数据上概率积能达到最大（m为样本数量，n为词典中单词的数量），所以有：

L (ϕ y, ϕ j ∣ y = 1, ϕ j ∣ y = 0) = \prod i = 1 m p (x (i), y (i)) = \prod i = 1 m p (x (i) ∣ y (i)) p (y (i)) = \prod i = 1 m (\prod j = 1 n p (x (i) j ∣ y (i); ϕ j ∣ y = 1, ϕ j ∣ y = 0)) p (y (i); ϕ y) (22)

$\begin{align} L(\phi_y,\phi_{j\mid y=1},\phi_{j\mid y=0})& =\prod_{i=1}^m p(x^{(i)},y^{(i)}) \\ & =\prod_{i=1}^m p(x^{(i)}\mid y^{(i)})p( y^{(i)})\\ &=\prod_{i=1}^m (\prod_{j=1}^n p(x^{(i)}_j\mid y^{(i)};\phi_{j\mid y=1},\phi_{j\mid y=0}))p( y^{(i)};\phi_y) \tag{22} \end{align}$
对其做最大似然估计就得到了参数值，带入式（17）与式（18）中即可对新样本进行分类：

p (y = 1) = ϕ y = \sum m i = 1 I { y ( i ) = 1 } m = 垃 圾 邮 件 数 量 总 样 本 邮 件 数 量 (23)

$p(y=1)=\phi_y=\frac{\sum_{i=1}^m I\begin{Bmatrix} y^{(i)}=1 \end{Bmatrix}}{m}=\frac{垃圾邮件数量}{总样本邮件数量}\tag{23}$

p (x j = 1 ∣ y = 1) = ϕ j ∣ y = 1 = \sum m i = 1 I { ( x ( i ) j = 1 ) Λ ( y ( i ) = 1 ) } \sum m i = 1 I { y ( i ) = 1 } = 出 现 了 词 典 中 第 j 个 词 的 垃 圾 邮 件 的 数 量 样 本 中 垃 圾 邮 件 的 数 量 (24)

$p(x_j=1\mid y=1)=\phi_{j\mid y=1}=\frac{\sum_{i=1}^m I\begin{Bmatrix}(x^{(i)}_j=1)\Lambda (y^{(i)}=1) \end{Bmatrix}}{\sum_{i=1}^m I\begin{Bmatrix} y^{(i)}=1 \end{Bmatrix}}=\frac{出现了词典中第j个词的垃圾邮件的数量}{样本中垃圾邮件的数量}\tag{24}$

p (x j = 1 ∣ y = 0) = ϕ j ∣ y = 0 = \sum m i = 1 I { ( x ( i ) j = 1 ) Λ ( y ( i ) = 0 ) } \sum m i = 1 I { y ( i ) = 0 } = 出 现 了 词 典 中 第 j 个 词 的 非 垃 圾 邮 件 的 数 量 样 本 中 非 垃 圾 邮 件 的 数 量 (25)

$p(x_j=1\mid y=0)=\phi_{j\mid y=0}=\frac{\sum_{i=1}^m I\begin{Bmatrix}(x^{(i)}_j=1)\Lambda (y^{(i)}=0) \end{Bmatrix}}{\sum_{i=1}^m I\begin{Bmatrix} y^{(i)}=0 \end{Bmatrix}}=\frac{出现了词典中第j个词的非垃圾邮件的数量}{样本中非垃圾邮件的数量}\tag{25}$

以上就是最基本的朴素贝叶斯方法。

3.3、文本表示方法二——多项式事件模型（NB-MEM）

在上面的在多元伯努利模型（NB-MBEM）下，向量 $x$ 是一本词典，每个词用0或者1标记，词典里被标记了1的单词组成了我们的邮件（式（12））：

x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x 1 x 2 x 3 ⋮ x 4123 ⋮ x 50000 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 100 ⋮ 1 ⋮ 0 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ a a a r d v a r k c o n o n y ⋮ b u y ⋮ q w e r r

x $x$ 未免维数太大了，有没有另外的表示方法可以降低

x $x$ 的维度，同时得到类似的效果？
那就是在多项式事件模型（NB-MEM）下，第二种邮件的特征向量表示形式了：

x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x 1 x 2 x 3 ⋮ x 36 ⋮ x 125 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 460003700018000 ⋮ 1 ⋮ 16000 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ t h e p r o d u c t i s ⋮ a ⋮ i t (26)

$x=\left[ \begin{matrix}x_1\\x_2\\x_3\\\vdots\\x_{36}\\\vdots\\x_{125} \end{matrix}\right]=\left[ \begin{matrix}46000\\37000\\18000\\\vdots\\1\\\vdots\\16000 \end{matrix}\right] \begin{matrix}the\\product\\is\\\vdots\\a\\\vdots\\it\end{matrix}\tag{26}$
向量

x $x$ 在这里不再是一本词典，而是邮件本身，每一个元素都是邮件中的一个单词，对应地，向量

x $x$ 中每个元素的取值不再是0或者1，而是

[1,2,⋯,|V|] $[1,2,\cdots,\left|V \right|]$ 里的整数（

|V|] $\left|V \right|]$ 是词典中单词的个数），表示邮件中某个单词在词典中的位置（比如“the”是词典中的第46000个单词，“a”是第一个单词）

在多项式事件模型（NB-MEM）中，我们假设一封邮件是由随机过程生成的。首先确定这封邮件是垃圾或者非垃圾邮件（ $p(y)$ ），在此前提下，我们假设邮件中的第一个单词 $x_1$ 是根据多项式分布来确认的（ $p(x_1\mid y)$ ），第二个单词 $x_2$ 在与 $x_1$ 条件独立的情况下，通过同一个多项式分布来确定，再以同样的方式确定 $x_3$ 、 $x_4$ 等，直到这封邮件被生成。
所以，同样地，我们对 $p(x\mid y)$ 展开：

p (x ∣ y) = p (x 1, \dots, x 125 ∣ y) = p (x 1 ∣ y) p (x 2 ∣ y, x 1) p (x 3 ∣ y, x 1, x 2) \dots p (x 125 ∣ y, x 1, \dots, x 124) = p (x 1 ∣ y) p (x 2 ∣ y) p (x 3 ∣ y) \dots p (x 124 ∣ y) = \prod j = 1 n p (x j ∣ y) (27)

$\begin{align} p(x\mid y)& =p(x_1,\cdots,x_{125}\mid y) \\ &= p(x_1\mid y)p(x_2\mid y,x_1)p(x_3\mid y,x_1,x_2)\cdots p(x_{125}\mid y,x_1,\cdots ,x_{124})\\&=p(x_1\mid y)p(x_2\mid y)p(x_3\mid y)\cdots p(x_{124}\mid y)\\&=\prod_{j=1}^n p(x_j\mid y) \tag{27} \end{align}$
形式上看起来跟式（16）是一样的，但是

xj∣y $x_j\mid y$ 在这里是多项式分布，不再是伯努利分布。
而且这里n的取值不是再是词典的中单词的个数，而是邮件中单词的个数；同时

xj $x_j$ 的取值不再是0或者1，而是1~词典中单词的个数

|V| $\left|V \right|$ 。

同样地，我们有省去分母的垃圾邮件模型与非垃圾邮件模型：

p (y = 1 ∣ x) = p (x ∣ y = 1) p (y = 1) = (\prod j = 1 n p (x j = k ∣ y = 1)) p (y = 1) (28)

$\begin{align} p(y=1\mid x)& =p(x\mid y=1)p(y=1) \\ & = (\prod_{j=1}^n p(x_j=k\mid y=1))p(y=1) \tag{28} \end{align}$

p (y = 0 ∣ x) = p (x ∣ y = 0) p (y = 0) = (\prod j = 1 n p (x j = k ∣ y = 0)) p (y = 0) = (\prod j = 1 n p (x j = k ∣ y = 0)) (1 - p (y = 1)) (29)

$\begin{align} p(y=0\mid x)& =p(x\mid y=0)p(y=0) \\ & = (\prod_{j=1}^n p(x_j=k\mid y=0))p(y=0) \\ &= (\prod_{j=1}^n p(x_j=k\mid y=0))(1-p(y=1)) \tag{29} \end{align}$
这里的

k $k$ 表示词典中的第

k $k$ 个单词。
于是我们有如下参数：

p (y = 1) = ϕ y (30)

$p(y=1)=\phi_y\tag{30}$

p (x j = k ∣ y = 1) = ϕ k ∣ y = 1 (31)

$p(x_j=k\mid y=1)=\phi_{k\mid y=1}\tag{31}$

p (x j = k ∣ y = 0) = ϕ k ∣ y = 0 (32)

$p(x_j=k\mid y=0)=\phi_{k\mid y=0}\tag{32}$
并得到几乎一样的似然函数：

L (ϕ y, ϕ k ∣ y = 1, ϕ k ∣ y = 0) = \prod i = 1 m p (x (i), y (i)) = \prod i = 1 m (\prod j = 1 n p (x (i) j ∣ y (i); ϕ k ∣ y = 1, ϕ k ∣ y = 0)) p (y (i); ϕ y) (33)

$\begin{align} L(\phi_y,\phi_{k\mid y=1},\phi_{k\mid y=0})& =\prod_{i=1}^m p(x^{(i)},y^{(i)}) \\ &=\prod_{i=1}^m (\prod_{j=1}^n p(x^{(i)}_j\mid y^{(i)};\phi_{k\mid y=1},\phi_{k\mid y=0}))p( y^{(i)};\phi_y) \tag{33} \end{align}$
对其做最大似然估计，最终得到如下参数：

p (y = 1) = ϕ y = \sum m i = 1 I { y ( i ) = 1 } m = 垃 圾 邮 件 数 量 总 样 本 邮 件 数 量 (34)

$p(y=1)=\phi_y=\frac{\sum_{i=1}^m I\begin{Bmatrix} y^{(i)}=1 \end{Bmatrix}}{m}=\frac{垃圾邮件数量}{总样本邮件数量}\tag{34}$

p (x j = k ∣ y = 1) = ϕ k ∣ y = 1 = \sum m i = 1 \sum n i j = 1 I { ( x ( i ) j = k ) Λ ( y ( i ) = 1 ) } \sum m i = 1 I { y ( i ) = 1 } n i = 所 有 垃 圾 邮 件 里 出 现 词 典 中 第 k 个 单 词 的 总 次 数 样 本 中 所 有 垃 圾 邮 件 的 单 词 的 总 数 量 (35)

$p(x_j=k\mid y=1)=\phi_{k\mid y=1}=\frac{\sum_{i=1}^m \sum_{j=1}^{n_i} I\begin{Bmatrix}(x^{(i)}_j=k)\Lambda (y^{(i)}=1) \end{Bmatrix}}{\sum_{i=1}^m I\begin{Bmatrix} y^{(i)}=1 \end{Bmatrix}n_i}=\frac{所有垃圾邮件里出现词典中第k个单词的总次数}{样本中所有垃圾邮件的单词的总数量}\tag{35}$

p (x j = k ∣ y = 0) = ϕ k ∣ y = 0 = \sum m i = 1 \sum n i j = 1 I { ( x ( i ) j = k ) Λ ( y ( i ) = 0 ) } \sum m i = 1 I { y ( i ) = 0 } n i = 所 有 非 垃 圾 邮 件 里 出 现 词 典 中 第 k 个 单 词 的 总 次 数 样 本 中 所 有 非 垃 圾 邮 件 的 单 词 的 总 数 量 (36)

$p(x_j=k\mid y=0)=\phi_{k\mid y=0}=\frac{\sum_{i=1}^m \sum_{j=1}^{n_i} I\begin{Bmatrix}(x^{(i)}_j=k)\Lambda (y^{(i)}=0) \end{Bmatrix}}{\sum_{i=1}^m I\begin{Bmatrix} y^{(i)}=0 \end{Bmatrix}n_i}=\frac{所有非垃圾邮件里出现词典中第k个单词的总次数}{样本中所有非垃圾邮件的单词的总数量}\tag{36}$

我们可以看到，在用两种向量 $x$ 来表示同样的邮件样本的时候，第二种方法NB-MEM中向量 $x$ 的规模远远小于第一种方法NB-MBEM中向量 $x$ 的规模，但是最终得到的参数规模几乎是一样的——
$\phi_y$ 都表示垃圾邮件的概率；
第一种方法NB-MBEM的参数 $\phi_j$ 里的 $j$ 取值范围是词典中单词的数量，
第二种方法NB-MEM的参数 $\phi_k$ 里的 $k$ 取值范围也是词典中单词的数量。
这表示词典中的每一个单词都有属于自己的一个概率值 $\phi_{[jk]}$ ，如果这本词典里有50000个单词，那么就会有50000个 $\phi_{[jk]}$ 。而且，还是两份 $\phi_{[jk]}$ ，垃圾邮件一份，非垃圾邮件一份，如果分类结果多起来，还会乘上与分类数目相同的份数。既然如此，区别这两个方法的意义何在？

回到我们最开始的地方，朴素贝叶斯是生成学习算法，生成学习算法的一般做法是分别做一个猫的模型与一个狗的模型，把新模型分别放到这两个模型中比较所得概率的大小。
在这里的文本分类中，我们对应地要分别做出一个垃圾邮件的模型与一个非垃圾邮件的模型，新邮件到来之后，把它分别放到这两个邮件模型中，看它是垃圾邮件的概率更大还是非垃圾邮件的概率更大。

以垃圾邮件的模型来看，我们最终使用参数的地方在：
式（17），NB-MBEM—— $p(y=1\mid x) = (\prod_{j=1}^n p(x_j=1\mid y=1))p(y=1)$ ；
与式（28），NB-MEM—— $p(y=1\mid x)= (\prod_{j=1}^n p(x_j=k\mid y=1))p(y=1)$
这两个式子中 $p(y=1)$ 都表示新样本是垃圾邮件的概率，区别就在于连乘的后验概率 $p(x\mid y=1)=\phi_{[jk]\mid y=1}$ 了，直观上来看仅是 $x_j$ 的取值从1变成了k而已。

但是，在式（17）中，向量 $x$ 是词典，这里的n是词典中单词的数量，如果该词典中有50000个单词，n就等于50000，所以每计算一个新样本是垃圾邮件的概率，都必须把50000个 $\phi_j$ 连乘起来；
在式（28）中，向量 $x$ 是邮件本身，n是邮件中单词的数量，如果新样本邮件中有125个单词，那么n等于125，每计算一个新样本是垃圾邮件的概率只需要把125个 $\phi_k$ 做连乘。

虽然两个方法都需要计算出 $50000 * 2$ 个 $\phi_{[jk]}$ ，但是在NB-MBEM中，每个 $\phi_j$ 在每一次分类时都会被使用；而在NB-MEM中，只有该单词在邮件中出现了，该 $\phi_k$ 才会被使用。
正常来看，一本词典中单词的数量是远远多于一封邮件中单词的数量的，所以明显后者的效率更高。

3.4、拉普拉斯平滑（Laplace smoothing）

上面的推导已经告一段落，但以上面的形式来看，还面临着一个致命的问题：朴素贝叶斯方法对数据稀疏的问题过于敏感。

比如，单词“go”没有在某类样本邮件中出现过，这就会使得求得的某个参数 $\phi_{[jk]}=0$ ，如果这个时候新样本中出现了“go”这个单词，那么这个等于0的 $\phi_{[jk]}$ 是要拿来做连乘的，一旦乘起来就出事了，结果是0，这显然是不合理的，不能因为某个单词没有出现过就判断这个邮件肯定不属于这一类。

为了解决这个问题，我们应该给未出现过的特征值对应的参数，赋予一个很小的值，而不是0。

对于一个随机变量 $z$ ，它的取值范围是{ $1,2,3,\cdots,k$ }，对于m次试验后的观测结果{ $z^{(1)},z^{(2)},z^{(3)},\cdots,z^{(m)}$ }，最大似然估计按照下式计算：

ϕ j = \sum m i = 1 I { z ( i ) = j } m (37)

$\phi_j=\frac{\sum_{i=1}^m I\begin{Bmatrix} z^{(i)}=j \end{Bmatrix}}{m}\tag{37}$
并有

∑mj=1ϕj=1 $\sum_{j=1}^m\phi_j=1$

使用拉普拉斯平滑，它的具体做法是假设每个特征值都出现过一次，公式变为：

ϕ j = \sum m i = 1 I { z ( i ) = j } + 1 m + k (38)

$\phi_j=\frac{\sum_{i=1}^m I\begin{Bmatrix} z^{(i)}=j \end{Bmatrix}+1}{m+k}\tag{38}$
也有

∑mj=1ϕj=1 $\sum_{j=1}^m\phi_j=1$

形象一点。抛一个骰子，它的取值范围是{ $1,2,3,4,5,6$ }，10次试验后的结果是{ $3,4,3,4,5,6,3,4,5,6$ }，式（37）表示“某个结果出现的次数在总试验次数中的比例”，它们的概率累加为1就显得自然而然了，而这里分子的主体是抛骰子的结果，每个结果都多出现一次，那分母要加上6即 $k=6$ 才能继续保持概率累加为1。

回到NB-MBEM与NB-MEM的参数 $\phi_{[jk]}$ 中，我们要对式（24）（25）与式（35）（36）做拉普拉斯平滑，使得 $\phi_{[jk]}$ 不为0。

NB-MBEM：

p (x j = 1 ∣ y = 1) = ϕ j ∣ y = 1 = \sum m i = 1 I { ( x ( i ) j = 1 ) Λ ( y ( i ) = 1 ) } + 1 \sum m i = 1 I { y ( i ) = 1 } + 2 (39)

$p(x_j=1\mid y=1)=\phi_{j\mid y=1}=\frac{\sum_{i=1}^m I\begin{Bmatrix}(x^{(i)}_j=1)\Lambda (y^{(i)}=1) \end{Bmatrix}+1}{\sum_{i=1}^m I\begin{Bmatrix} y^{(i)}=1 \end{Bmatrix}+2}\tag{39}$

p (x j = 1 ∣ y = 0) = ϕ j ∣ y = 0 = \sum m i = 1 I { ( x ( i ) j = 1 ) Λ ( y ( i ) = 0 ) } + 1 \sum m i = 1 I { y ( i ) = 0 } + 2 (40)

$p(x_j=1\mid y=0)=\phi_{j\mid y=0}=\frac{\sum_{i=1}^m I\begin{Bmatrix}(x^{(i)}_j=1)\Lambda (y^{(i)}=0) \end{Bmatrix}+1}{\sum_{i=1}^m I\begin{Bmatrix} y^{(i)}=0 \end{Bmatrix}+2}\tag{40}$
在这里，式子的主体是邮件（参看式（24）（25）中其所表达的意义），邮件可能的取值有两个，垃圾邮件或非垃圾邮件，所以

k=2 $k=2$ 。

NB-MEM：

p (x j = k ∣ y = 1) = ϕ k ∣ y = 1 = \sum m i = 1 \sum n i j = 1 I { ( x ( i ) j = k ) Λ ( y ( i ) = 1 ) } + 1 \sum m i = 1 I { y ( i ) = 1 } n i + | V | (41)

$p(x_j=k\mid y=1)=\phi_{k\mid y=1}=\frac{\sum_{i=1}^m \sum_{j=1}^{n_i} I\begin{Bmatrix}(x^{(i)}_j=k)\Lambda (y^{(i)}=1) \end{Bmatrix}+1}{\sum_{i=1}^m I\begin{Bmatrix} y^{(i)}=1 \end{Bmatrix}n_i+\left|V\right|}\tag{41}$

p (x j = k ∣ y = 0) = ϕ k ∣ y = 0 = \sum m i = 1 \sum n i j = 1 I { ( x ( i ) j = k ) Λ ( y ( i ) = 0 ) } + 1 \sum m i = 1 I { y ( i ) = 0 } n i + | V | (42)

$p(x_j=k\mid y=0)=\phi_{k\mid y=0}=\frac{\sum_{i=1}^m \sum_{j=1}^{n_i} I\begin{Bmatrix}(x^{(i)}_j=k)\Lambda (y^{(i)}=0) \end{Bmatrix}+1}{\sum_{i=1}^m I\begin{Bmatrix} y^{(i)}=0 \end{Bmatrix}n_i+\left|V\right|}\tag{42}$
在这里，式子的主体是单词（参看式（35）（36）中其所表达的意义），单词的取值就多了，{