维度灾难问题---

本文主要是介绍维度灾难问题---，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Content

1 引言
2 维数灾难与过拟和
3 怎样避免维数灾难
4 总结

1 引言

本文章讨论的话题是“curse of dimension”，即维数灾难，并解释在分类它的重要性，在下面的章节我会对这个概念做一个直观的解释，并清晰的描述一个由维数灾难引起的过度拟合的问题。

下面不如正题，考虑我们有一堆猫和狗的图片，现在要做一个分类器，它可以把猫和狗自动并且正确分类。所以对这个两个类别，首先需要一组描述符，使这两个类别可以被表示为数字，分类器可以使用数字来决定类别（如Logistic Regression 映射到sigmod后，与阈值比较大小来确定类别），本例中可以用颜色来进行分类，我们用红绿蓝三原色来表示，即平均的红色，平均的绿色，平均的蓝色这三个数值，结合三个给定的权重，来最终构成一个线性分类器，决定最终的分类标签：

比如 if (0.5*red + 0.3*green + 0.2*blue >0.6) return cat;

else return dog;

我们称这些代表颜色的数字为特征，这些特征不足以生成一个很好的分类器，一般来说，颜色无法区分猫和狗，所以需要添加更多的特征，来描述图片的结构，比如在X与Y方向的平均边缘或梯度强度来计算，结合起来便有5个特征，足矣分类猫和狗。

为了获得更精准的分类，可以添加更多基于颜色或者纹理直方图。统计矩的特征，也许特征达到一定维度，我们会得到一个堪称完美的分类器？其实不然，因为当特征达到一定维度后，再去增加维度会导致分类器的性能下降，这便是经常提到的“curse of dimension”如下图所示：

图1

2 维数灾难与过拟和

假定有无穷多的猫和狗，任取10个猫或狗，我们的目标是使用10个训练样例，来对无穷多的测试样例进行分类，下面开始模型的构建，首先，随意输入一个特征，如三原色中的红色

图2，单一特征无法对训练集分类

由图2可见，单一特征几乎无法对数据进行分类，为了优化我们的模型，继续添加特征，这次添加绿色

图3，添加了第二个特征，仍然没有一条直线，可以进行线性分类

图3仍然无法完美分类，所以继续添加第三维的特征，如下图：

图4，三维空间中，能够找到一个超平面，来把猫和狗完美分类

由图4似乎可以看出，我们使用的特征组合越多，便能得到更精准的分类器。来对10个训练数据进行分类。

图5，特征数目越多，分类器就有越高的可能性来分类数据

通过上面的分析，我们得到的结论是，在得到一个性能优良的分类器前，增加特征便会有更好的分类效果，单事实却不是这样，正如图1的曲线所示。其实在增加特征时，样本的密度会呈指数形式下降。假设1维中长度为5个单位,2维中会有25个单位 3维则会达到125个单位，样本数目是固定的，本例中为10，可见维度的增高，样本密度会呈指数级下降，通过添加特征导致的稀疏，使我们易于找到一个超平面来把样本分离，因为特征数目趋于无穷大时，样本被分类错误的概率会变得无穷小，然而当把样本由高维投影到低维时，便会有一个严重的问题：

图6：3维投影到2维后的图示

图6可见，使用太多的特征，分类器也会拟合训练数据中的噪声误差，并且不能很好的泛化到新来的测试数据，即分类器不能把对样本数据的分类能力很好的泛化到训练数据。图6也能看出在3维空间中线性可分的数据，投影到2维空间后变为非线性可分，事实上，通过添加增加特征把数据映射到高维空间来获得一个优良的分类器，仅仅相当于在低维空间中使用一个复杂的非线性分类器（kernel method）。在高维空间中，我们的分类器只拟合了稀疏的训练数据，数据可能带有误差，这样便会使分类器不能应用到一个更广阔的数据集，即缺乏泛化性。这个概念便是由维数引起的over-fitting，下图展示了2维空间下线性分类的结果：

图7，虽然对训练数据分类不是很精确，但这个分类器会得到比图5更好的结果

直观来看，图7在训练数据上的分类效果不如图5，但这种简单的分类效果会更好的泛化到训练集以外的数据，因为它并没有拟合只出现在训练数据中的例外状况。换句话说，使用较少的特征，维数灾难是可以避免的，不会过度拟合训练数据。

图8用不一样的方式来描述了上述现象，比如现在我们用一个值在（0-1）之间的特征来分类训练数据，假定这个特征对猫与狗来说是可以区分的，如果我们想要覆盖特征空间的20%，我们便需要猫和狗总数的20%,如果添加一个特征，在2维空间中，要覆盖特征空间的20%，我们便需要在每个维度上取猫和狗的总数的45%,（0.45^2=2），同理，3维空间中需要在每个维度上取58%。