从零开始学统计 04 | 协方差与相关性分析

本文主要是介绍从零开始学统计 04 | 协方差与相关性分析，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

一、老板的任务

老板今天又给一个任务：

计算肝脏细胞中 X 基因与 Y 基因的关系。

现在，两个基因在各个细胞中的表达值都有了。

绘制不同细胞中 X，Y 基因的表达值在坐标轴上。

计算 X 基因和 Y 基因在5个细胞中的均值，标准差。

mark

因为这些测量值都是来自同一个细胞，所以我们可以成对来看：

mark

那么这样成对的测量可以告诉我们哪些信息呢？

现在，先将一对细胞连接，绘制一个点

mark

绘制完成，我们发现，X 基因相对较低的细胞对应的 Y 基因的值也较低，两个基因出现步调一致的表达情况，这可以用一条线来表示：

mark

不难看到，这条线是正斜率，代表着细胞中的 X 基因表达高，Y基因同样会表达高，同样表达低也会出现相同的情况。说明两基因具有正趋势关系

来看一个相反的情况：

mark

上图中的线为负斜率，告诉我们细胞中的 X 基因表达高，Y基因会表达低，出现相反的表达情况。说明两基因具有负趋势关系

第三种情况是，一个基因相对另一个基因，并没有显著变化。说明两基因无趋势关系：

mark

我们现在总结出 X 基因相对 Y 基因的关系有以上三种情况：

正趋势关系
负趋势关系
无趋势关系

二、协方差

为了去说明 X 基因相对 Y 基因的趋势关系，我们需要一个数学上的解释：

首先计算 X基因与 Y 基因的均值

mark

现在计算一个点的与两基因均值的差值：

mark

将值代入 mark 计算：（3-17.6）x（12-24.4）= -14.6 x -12.4 = 181

如果将五个点都计算一遍，得到：

mark

现在可以计算**协方差（Covariance）**了：

mark

会发现：

mark

这些点所在象限，最终的值都为正值，也就是说这五个点对总协方差的贡献都是正值。

协方差值为正，斜率为正，这告诉我们当协方差为正时，就可以将二者的关系分类为正趋势。如果协方差为负，则相反。

协方差的优缺点

但是，协方差值并不能告诉我们表示关系的直线的斜率是陡峭还是平缓，而且也不能反应点距离线是远还是近。协方差唯一能告诉我们的是关系的斜率为正还是负。

但是协方差还有一个很大的缺点，我们接下来讨论：

比如现在同样计算两个基因的协方差，我们将左边的数据范围扩大一倍，也就是从40 -> 80。

接下来，我们继续计算同样的两个基因的协方差，虽然线相对位置没发生变化，但是会发现协方差会扩大4倍。

mark

就很有意思，我们唯一改变的只是数据点的值范围，数据点的关系并没有变化，但是协方差依旧在改变。

也就是说，协方差对于数据范围更敏感，而不是数据关系，这就使得它很难用于关系的描述，比如是否接近表示关系的虚线，以及和虚线间的距离。

虽然这样，但是协方差并不是一无是处，相反它是各种分析的基础，比如主成分分析，相关性分析。

三、相关性分析

1. 相关性强弱

基于趋势线，我们可以根据某个 Y 基因值，预测 X 基因的值。

当然，也可以用 X 基因来预测 Y 基因，就行下图这样的：

mark

如果该数据越接近趋势线，根据 X 基因值去预测 Y 基因值就会落在较小范围内，那么 X 基因就会告诉我们更详细的 Y 基因信息。也可以说， X 基因对 Y 基因的关系相对较强。

相反，距离趋势线较远，我们会猜测 Y 基因值会落在更大的范围内：

mark

这就代表 X 基因和 Y 基因间的关系相对较弱。

但是这里要注意描述问题，以上是用 X 基因根据趋势线和数值去预测 Y 基因的值。而不是代表着 X 基因值会导致 Y 基因值的变化。

我们现在得到可以量化关系强度的分类：

弱相关，较小的相关值
强相关，较大的相关值

mark

2. P值

假设一个极端情况，所有点可以被正斜率的直线通过，这时的相关性为 1

mark

无论数据关联的大小如何，只要具有正斜率的直线可以遍历所有数据，和斜率无关，相关性都为1

mark

还有这样的，相关性也是为1

mark

现在考虑个问题，如果数据集中只有两个值，就像下面这样：

mark

类似这样的，其实并不能作为趋势线，因为两点绘制为线，这个随机性太大。也就是数据量太小的话，并不能代表数据总体。

测得的数据量越多，得到趋势线后，我们对于预测到正确的值越有信心，这时的P值越小。

mark

上图中，对于第三个数据量多，P值很小，我们最有信心得出正确的预测值。

相关性代表了二者的关系，上图中的相关性很差，即使增加再多的样本量，也不会改变二者的关系。虽然增加了我们对预测的信心，可信度增加了，但是得到的结果是二者的关系依然很糟。

3. 总结

趋势线为负时，相关性相反

趋势线为正时，相关性为正

mark

但是，我们大多数情况遇到的是数据分布在趋势线的两侧，

mark

相关性值越接近 0 时，在拟合时，效果就会越差。

mark

当相关性值为 0 时，就没有关系了。

mark

现在可以看看相关性的公式了：

mark

分子是二者的协方差，用来确定斜率的正负
分母是标准差，使相关性质取值范围为-1到1。而且可以确保数据规模不影响相关性值

4. R平方

绘制小鼠编号和小鼠体重的散点图，计算点与体重均值的距离，计算方差：

mark

小鼠体重与小鼠体型的散点图，同样绘制点与均值的距离，计算方差：

mark

可以发现，虽然点在 X 轴方向的排列顺序变了，但是方差并不会改变。

我们所要做的就是根据数据拟合一条直线，可以绘制出这根蓝线：

mark

看起来拟合直线（蓝线）比均值直线（黑线）更好地贴合数据。

mark

Var(mean)：数据值与其平均值的差的平方和，用来衡量数据点离均值线的远近
Var(line)：数据值与蓝线的差的平方和，用来衡量数据点离拟合线的远近

最终 R^2 的范围是 0 到 1，因为拟合直线附近的变化，永远不会大于，以平均线为基准衡量附近的变化。

mark

最后，获得 R^2 = 81%，代表着蓝线与数据点的差值平方和比均值的对应数值小81%。也就是说，小鼠的大小与重量的相关性能够解释总差异的 81%，大部分数据变化都可以有小鼠体重和体型大小的关系来解释。

假设研究小鼠体重和嗅探石头的花费时间的关系：

mark

可以看到拟合出的直线也是一个很大的值，计算得到的 R^2 只有 6%，代表这条拟合线只比平均值多解释了6%的差异，也就是说，X与 Y 二者的相关性仅仅能解释总差异的 6%，意味着数据中几乎没有任何差异可以用 X 变量来解释。

R^2 可以更好的直观解释数据的相关性，比如：

R^2 = 0.7^2 = 0.5，50%的差异可以用变量相关性来解释

R^2 = 0.5^2 = 0.25，25%的差异可以用变量相关性来解释

但是，R^2并没有方向，这时候需要结合R，描述这两个变量是正相关或负相关的。

R平方是两个变量间相关性能够解释总体差异的百分比

如果有相关系数 R 时，需要计算 R 平方。

致谢：

https://www.youtube.com/channel/UCtYLUTtgS3k1Fg4y5tAhLbw

这篇关于从零开始学统计 04 | 协方差与相关性分析的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

从零开始学统计 04 | 协方差与相关性分析

一、老板的任务

二、协方差

协方差的优缺点

三、相关性分析

1. 相关性强弱

2. P值

3. 总结

4. R平方

相关文章

Nginx分布式部署流程分析

Redis中的有序集合zset从使用到原理分析

Redis中的AOF原理及分析

MyBatis Plus大数据量查询慢原因分析及解决

分析 Java Stream 的 peek使用实践与副作用处理方案

MyBatis/MyBatis-Plus同事务循环调用存储过程获取主键重复问题分析及解决

Java中最全最基础的IO流概述和简介案例分析

C++统计函数执行时间的最佳实践

IDEA与MyEclipse代码量统计方式

Android 缓存日志Logcat导出与分析最佳实践