数据降维技术——PCA（主成分分析）

本文主要是介绍数据降维技术——PCA（主成分分析），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

为什么要对数据进行降维？

在机器学习或者数据挖掘中，我们往往会get到大量的数据源，这些数据源往往有很多维度来表示它的属性，但是我们在实际处理中只需要其中的几个主要的属性，而其他的属性或被当成噪声处理掉。比如，13*11的源数据经过将为后变成了13*4的优化数据，那么，中间就减去了7个不必要的属性，选取了4个主要属性成分，简化了计算。

常用的数据降维方法有：主成分分析、因子分析、独立成分分析。本文仅介绍主成分分析方法。

主成分分析（PCA，Principal Component Analysis），其中的数学原理可参考360图书馆http://www.360doc.com/content/13/1124/02/9482_331688889.shtml

优点：

降低数据的复杂性，识别最重要的多个特征。

缺点：

不一定需要，且可能损失有用的信息。

适用类型：

数值型数据。

木羊根据自己的学习与理解总结出的PCA步骤：

获取n行m列原始数据，写成n*m的矩阵形式；
数据中心化。即把每个属性的均值处理设为0（下面木羊将给出自己编写的源代码，木羊的数据用列代表属性，在该步骤中，就把每列的均值都设置为0）。
根据中心化后的矩阵求协方差矩阵。协方差有三种值，0表示属性之间相互独立，没有影响；正值表示属性是正相关的关系，若属性A和属性B是正相关关系，则A增加B也增加，A减小B也减小；负值表示属性是负相关的关系，若属性C和属性D是负相关关系，则C增加D减小，C减小D增加。所以，协方差矩阵也可以理解为相关系数矩阵，表示属性间的相关程度。
根据协方差矩阵求特征值矩阵。特征值矩阵只有对角线上的元素有值，上三角和下三角元素都为0.
根据特征值矩阵求对应的特征向量。
对特征值矩阵进行排序，并设定一个阈值，若前i个特征矩阵的和>=设定的阈值，则就有i个主成分，取其对应的特征向量，定为主成分向量矩阵。
原始矩阵乘以转置后的主成分向量即得降维后的矩阵。比如，原始数据是150*4的矩阵，在步骤6中取得了2个主成分，那么主成分矩阵就是2*4的矩阵。150*4的矩阵乘以4*2的矩阵，即得150*2的矩阵，体现了降维效果。（选取这个属性较少的数据集是为了方便初学者的理解，在实际工程中，我们的属性值往往不止4个，但降维方法都一样的。）