机器学习: Canonical Correlation Analysis 典型相关分析

本文主要是介绍机器学习: Canonical Correlation Analysis 典型相关分析，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Canonical Correlation Analysis(CCA)典型相关分析也是一种常用的降维算法。我们知道，PCA(Principal Component Analysis) 主分量分析将数据从高维映射到低维空间同时，保证了数据的分散性尽可能地大, 也就是数据的方差或者协方差尽可能大。而LDA(Linear Discriminant Analysis) 线性判别分析则利用了类标签，利用一种监督学习的方法，将数据从高维空间映射到低维空间时，让不同类的数据尽可能地分开而同一类的数据尽可能地聚合。

但是，有的时候，我们想探讨多个线性空间之间的相关性。比如有的时候我们会从图像中提取各种特征，每一种特征都可以构成一个线性空间，为了分析这些空间之间的相关性，我们可以利用CCA 来做分析。

假设我们有两个特征空间， $S1={\mathbf{x}_{1} \in R^{d1}}$ , $S2={\mathbf{x}_{2} \in R^{d2}}$ , 我们可以将两个特征向量合并。

x = (x 1 x 2) E (x) = (μ 1 μ 2) Σ = (Σ 11 Σ 21 Σ 12 Σ 22)

$\mathbf{x} = \begin{pmatrix}\mathbf{x}_{1} \\\mathbf{x}_{2} \end{pmatrix} \quad E(\mathbf{x}) = \begin{pmatrix}\mathbf{\mu}_{1} \\\mathbf{\mu}_{2} \end{pmatrix} \quad \Sigma = \begin{pmatrix}\Sigma_{11} & \Sigma_{12} \\\Sigma_{21} & \Sigma_{22} \end{pmatrix}$

可以看到， $\Sigma_{12}=\Sigma_{21}^{T}$ ， $\Sigma$ 称为协方差矩阵。我们引入投影向量 $\mathbf{a}$ , $\mathbf{b}$ , 假设投影之后的变量满足:

u = a T x 1 v = b T x 2

$u=\mathbf{a}^{T} \mathbf{x}_{1} \quad v=\mathbf{b}^{T} \mathbf{x}_{2}$

可以进一步算出 $u, v$ 的方差和协方差:

var (u) = a T Σ 11 a, var (v) = b T Σ 2 b, c o v (u, v) = a T Σ 12 b

$\text{var}(u)= \mathbf{a}^{T} \Sigma_{11} \mathbf{a}, \quad \text{var}(v)=\mathbf{b}^{T} \Sigma_{2} \mathbf{b}, \quad cov(u,v)=\mathbf{a}^{T} \Sigma_{12} \mathbf{b}$

可以计算出 $u, v$ 的相关系数:

C o r r (u, v) = cov ( u , v ) var ( u ) - - - - - \sqrt var ( v ) - - - - - \sqrt

$Corr(u,v)=\frac{\text{cov}(u,v)}{\sqrt{\text{var}(u)} \sqrt{\text{var}(v)}}$

将 $u,v$ 的表达式代入，可以得到:

C o r r (u, v) = a T Σ 12 b a T Σ 11 a - - - - - - \sqrt b T Σ 22 b - - - - - - - \sqrt

$Corr(u,v)=\frac{\mathbf{a}^{T} \Sigma_{12} \mathbf{b}}{\sqrt{\mathbf{a}^{T} \Sigma_{11} \mathbf{a}} \sqrt{\mathbf{b}^{T} \Sigma_{22} \mathbf{b}}}$

我们的目标是让相关系数 $Corr(u,v)$ 尽可能地大。为了求解 $\mathbf{a}, \mathbf{b}$ , 可以固定分母而让分子最大化，所以上面的函数可以变成:

max a, b a T Σ 12 b

$\max_{\mathbf{a}, \mathbf{b}} \mathbf{a}^{T} \Sigma_{12} \mathbf{b}$

s . t . a T Σ 11 a = 1, b T Σ 22 b = 1

$s.t. \quad \mathbf{a}^{T} \Sigma_{11} \mathbf{a}=1, \quad \mathbf{b}^{T} \Sigma_{22} \mathbf{b}=1$

构造拉格朗日等式:

L = a T Σ 12 b - λ 1 2 (a T Σ 11 a - 1) - λ 2 2 (b T Σ 22 b - 1)

$L=\mathbf{a}^{T} \Sigma_{12} \mathbf{b}-\frac{\lambda_{1}}{2}(\mathbf{a}^{T} \Sigma_{11} \mathbf{a}-1)-\frac{\lambda_{2}}{2}(\mathbf{b}^{T} \Sigma_{22} \mathbf{b}-1)$

$L$ 分别对 $\mathbf{a}, \mathbf{b}$ 求导，可以得到:

\partial L \partial a = Σ 12 b - λ 1 Σ 11 a = 0

$\frac{\partial L}{\partial \mathbf{a}}= \Sigma_{12} \mathbf{b}- \lambda_{1} \Sigma_{11} \mathbf{a}=0$

\partial L \partial b = Σ 21 a - λ 2 Σ 22 b = 0

$\frac{\partial L}{\partial \mathbf{b}}= \Sigma_{21} \mathbf{a}- \lambda_{2} \Sigma_{22} \mathbf{b}=0$

根据约束条件，可以得到:

λ 1 = λ 2 = a T Σ 12 b

$\lambda_{1}=\lambda_{2}=\mathbf{a}^{T} \Sigma_{12} \mathbf{b}$

所以只要求出 $\lambda_{1}$ 或者 $\lambda_{2}$ 就可以得到最大的相关系数。令 $\lambda=\lambda_{1}=\lambda_{2}$ .

通过上面的偏导数，我们可以得到:

Σ - 1 11 Σ 12 b = λ a

$\Sigma_{11}^{-1}\Sigma_{12} \mathbf{b}= \lambda \mathbf{a}$

Σ - 1 22 Σ 21 a = λ b

$\Sigma_{22}^{-1}\Sigma_{21} \mathbf{a}= \lambda \mathbf{b}$

写成矩阵形式:

(Σ - 1 11 0 0 Σ - 1 22) (0 Σ 21 Σ 12 0) (a b) = λ (a b)

$\begin{pmatrix}\Sigma_{11}^{-1} & 0 \\0 & \Sigma_{22}^{-1} \end{pmatrix} \begin{pmatrix}0 & \Sigma_{12} \\\Sigma_{21} & 0 \end{pmatrix} \begin{pmatrix}\mathbf{a} \\\mathbf{b} \end{pmatrix}=\lambda \begin{pmatrix}\mathbf{a} \\\mathbf{b} \end{pmatrix}$

令:

B = (Σ 11 0 0 Σ 22), A = (0 Σ 21 Σ 12 0) w = (a b)

$B= \begin{pmatrix}\Sigma_{11} & 0 \\0 & \Sigma_{22} \end{pmatrix}, \quad A= \begin{pmatrix}0 & \Sigma_{12} \\\Sigma_{21} & 0 \end{pmatrix} \quad \mathbf{w}=\begin{pmatrix}\mathbf{a} \\\mathbf{b} \end{pmatrix}$ ,
那么，上式可以表示成:

B - 1 A w = λ w

$B^{-1}A\mathbf{w}=\lambda \mathbf{w}$

所以, $\lambda$ 和 $\mathbf{w}$ 就是 $B^{-1}A$ 的特征值和特征向量。我们可以求出 $B^{-1}A$ 的特征值和特征向量，然后利用特征向量将原来的特征
$\mathbf{x}_{1}, \mathbf{x}_{2}$ 做映射。对应特征值 $\lambda$ 的求解，可以有更简单的方法，从上面的偏导数，我们可以得到如下等式: