降维：主成分分析

2024-06-16 19:38

文章标签 分析降维成分

本文主要是介绍降维：主成分分析，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

主成分分析最大方差理论

主成分分析(PCA)目标是找到数据中的主成分，并利用这些主成分表征原始数据，因而做到降维。
在信号领域，认为信号具有较大的方差，噪声具有较小的方差，信号与噪声之比称为信噪比，信噪比越大意味着数据质量也就越好。进而可以采用最大化投影方差的方法实现PCA的目标。
给定一组数据点 $\{v_1,v_2,\cdots,v_n\}$ ，进行中心化表示：
$\{x_1,x_2,\cdots,x_n\}=\{v_1-\mu,v_2-\mu,\cdots,v_n-\mu\},\mu=\frac{1}{n}\sum_{i=1}^{n}v_i$
目标是找到一个投影方向 $\omega$ (单位方向向量)使得 $\{x_1,x_2,\cdots,x_n\}$ 在 $\omega$ 上的投影方差尽可能大，投影后的均值为
$\mu'=\frac{1}{n}\sum_{i=1}^{n}x_i^T\omega=(\frac{1}{n}\sum_{i=1}^{n}x_i^T)\omega=0$ 此时，投影后的方差可以表示为
$D(x)=\frac{1}{n}\sum_{i=1}^{n}(x_i^T\omega)^2=\omega^T(\frac{1}{n}\sum_{i=1}^{n}x_ix_i^T)\omega$
$\frac{1}{n}\sum_{i=1}^{n}x_ix_i^T$ 是样本协方差矩阵，记为 $\Sigma$ .
PCA求解下述最大化问题
$\max{\omega^T\Sigma\omega},s.t.\omega^T\omega=1$ 引入拉格朗日乘子，可以推出 $\Sigma\omega=\lambda\omega$ ，此时有
$D(x)=\omega^T\Sigma\omega=\lambda\omega^T\omega=\lambda$ 即 $x$ 投影后的方差为协方差矩阵的特征值，找到的最大方差也就是协方差矩阵最大的特征值，最佳投影方向是相应的特征向量。可以推出次佳投影方向是第二大特征值对应的特征向量，依此类推。
总结归纳PCA求解过程：

求样本协方差矩阵
求解协方差矩阵特征值
根据需求，取前 $k$ 大特征值所对应的特征向量 $\omega_1,\omega_2,\cdots,\omega_k$ ，投影得到样本的 $k$ 维表示
$x_i'=(\omega^T_1x_i,\omega^T_2x_i,\cdots,\omega^T_kx_i)^T$