统计杂碎记录

2023-12-14 21:08
文章标签 统计 记录 杂碎

本文主要是介绍统计杂碎记录,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

统计杂碎记录

PS: 记录一些自己平时遇到的数理统计概念,持续更新中,后续补充学习

1. nested random intercept effects
建议参考:Visualizing Nested and Cross Random Effects

2. 方差膨胀因子Variance Inflation Factor (VIF)
这个概念呢其实在做PCA, RDA或者其它类似的分析时可能会用到。
首先要知道多重共线性:当解释变量之间存在一定程度的相关性(近似共线性)时,也可以称之为多重共线性。
这会造成什么后果呢?当有多重共线性的情况发生时,参数估计的结果不再具有有效性,因此,在进行逻辑回归之前,我们需要通过VIF检验排除掉某些有多重共线性的变量。通常,当VIF>10时,就认为存在多重共线性,该特征需要删除。

VIF指的是解释变量之间存在多重共线性时的方差与不存在多重共线性时的方差之比,可以反映多重共线性导致的方差的增加程度。
V I F = 1 1 − R 2 VIF =\frac{1}{1-R^{2}} VIF=1R21

这里的R2,即线性回归中的决定系数,可以由因变量和自变量之间的复相关系数的平方得到。
为了得到每一个变量的 VIF,我们需要以每一个变量为因变量对其余所有变量进行线性回归,对每一个变量得到各自的R2,再计算每一个变量的 VIF。

具体计算例子可参考
数理统计基础——多重共线性、方差膨胀因子和决定系数

3. 置换多元变量分析/置换多元方差分析(Permutational multivariate analysis of variance,PERMANOVA)
当因变量不止一个时,即一个或多个因子变量对应了多个因变量时,可使用多元方差分析(MANOVA)。
但是其条件非常苛刻,要求数据满足多元正态性、方差-协方差矩阵同质性,大部分案例中都是直接拒绝的。

这里补充一下协方差矩阵:
【多维随机变量的协方差矩阵】对多维随机变量X=[X1, X2, X3, … , Xn]T 我们需要计算各维度两两之间的协方差,这样各协方差就组成了一个 n x n 的矩阵,成为协方差矩阵。协方差矩阵是个对称矩阵,对角线上的元素是各维度上随机变量的方差(其实就是方差-协方差矩阵)。定义协方差矩阵为∑,矩阵内的元素 ∑ij 为:
∑ i j = c o v ( X i , X j ) = E [ ( X i − E ( X i ) ) ( X j − E ( X j ) ) ] \displaystyle\sum_{ij} =cov(X_i, X_j)=E[(X_i-E(X_i))(X_j-E(X_j))] ij=cov(Xi,Xj)=E[(XiE(Xi))(XjE(Xj))]

替代方法可选择稳健MANOVA,或者而非参数的方法,常用置换多元方差分析(PERMANOVA),又称非参数多因素方差分析(nonparametric multivariate analysis of variance),或Adoins分析,其本质是基于F统计的方差分析,依据距离矩阵对总方差进行分解的非参数多元方差分析方法。可利用半度量(如Bray-Curtis)或度量距离矩阵(如Euclidean)对总方差进行分析,通过线性模型分析不同组因素或环境因子(如临床表型数据、土壤理化指标等)对样品差异的解释度,并用置换检验进行显著性分析
使用PERMANOVA可分析不同分组因素对样品差异的解释度,并使用置换检验进行显著性统计

这里再补充一下, MRPP多响应置换过程分析(Multiple Response Permutation Procedure)。用来检验组间(两组或多组)的差异是否显著大于组内差异。与ANOSIM分析类似,可利用半度量或度量距离矩阵计算A值表示组间差异,使用置换检验对分组进行显著性分析。
还有一个,ANOSIM相似性分析。是一种非参数检验,用于检验高纬度数据间的相似性,比较组间和组内差异的大小,从而判断分组是否有意义。可以用于检验两组的组间和组内差异,也可以用于多组。
原理如下,以最基本的两个组为例:
现一共有6个样本,根据我们的实验方案将其氛围两组,Group1和Group2,每组含有3个样本。
1 首先基于组内样本间的距离计算组内的相似性
在这里插入图片描述
2 基于组间的距离计算组间的相似性
在这里插入图片描述
结合组内和组间,得到:
在这里插入图片描述
然后根据公式计算R值:
在这里插入图片描述
rb 和 rw分别为组间和组内差异性秩的平均值;n 即样本数量
因此,R 取值范围为 [-1, 1]:
当R趋向于1时,说明组间差异大于组内差异;
当 R=0 时,说明组间没有差异,即分组无效,不同分组之间没有差异;
当 R 趋向于 -1 时,说明组间差异小于组内差异。
当 R>0 时,还要进一步检验这种差异是否具有可信度,ANOSIM中对其的检验方法也是使用置换检验。

在这里插入图片描述
以上关于ANOSIM相似性分析的图片是参考了哪个网站上的讲解,并非本人原创,但是不记得是在哪里看到做的笔记了……以后找到会补充上。

这篇关于统计杂碎记录的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/493879

相关文章

Pandas中统计汇总可视化函数plot()的使用

《Pandas中统计汇总可视化函数plot()的使用》Pandas提供了许多强大的数据处理和分析功能,其中plot()函数就是其可视化功能的一个重要组成部分,本文主要介绍了Pandas中统计汇总可视化... 目录一、plot()函数简介二、plot()函数的基本用法三、plot()函数的参数详解四、使用pl

Pandas统计每行数据中的空值的方法示例

《Pandas统计每行数据中的空值的方法示例》处理缺失数据(NaN值)是一个非常常见的问题,本文主要介绍了Pandas统计每行数据中的空值的方法示例,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是空值?为什么要统计空值?准备工作创建示例数据统计每行空值数量进一步分析www.chinasem.cn处

Java使用SLF4J记录不同级别日志的示例详解

《Java使用SLF4J记录不同级别日志的示例详解》SLF4J是一个简单的日志门面,它允许在运行时选择不同的日志实现,这篇文章主要为大家详细介绍了如何使用SLF4J记录不同级别日志,感兴趣的可以了解下... 目录一、SLF4J简介二、添加依赖三、配置Logback四、记录不同级别的日志五、总结一、SLF4J

在Spring Boot中浅尝内存泄漏的实战记录

《在SpringBoot中浅尝内存泄漏的实战记录》本文给大家分享在SpringBoot中浅尝内存泄漏的实战记录,结合实例代码给大家介绍的非常详细,感兴趣的朋友一起看看吧... 目录使用静态集合持有对象引用,阻止GC回收关键点:可执行代码:验证:1,运行程序(启动时添加JVM参数限制堆大小):2,访问 htt

MySQL 中查询 VARCHAR 类型 JSON 数据的问题记录

《MySQL中查询VARCHAR类型JSON数据的问题记录》在数据库设计中,有时我们会将JSON数据存储在VARCHAR或TEXT类型字段中,本文将详细介绍如何在MySQL中有效查询存储为V... 目录一、问题背景二、mysql jsON 函数2.1 常用 JSON 函数三、查询示例3.1 基本查询3.2

Mysql如何将数据按照年月分组的统计

《Mysql如何将数据按照年月分组的统计》:本文主要介绍Mysql如何将数据按照年月分组的统计方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql将数据按照年月分组的统计要的效果方案总结Mysql将数据按照年月分组的统计要的效果方案① 使用 DA

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

Spring Boot 配置文件之类型、加载顺序与最佳实践记录

《SpringBoot配置文件之类型、加载顺序与最佳实践记录》SpringBoot的配置文件是灵活且强大的工具,通过合理的配置管理,可以让应用开发和部署更加高效,无论是简单的属性配置,还是复杂... 目录Spring Boot 配置文件详解一、Spring Boot 配置文件类型1.1 applicatio

MySQL INSERT语句实现当记录不存在时插入的几种方法

《MySQLINSERT语句实现当记录不存在时插入的几种方法》MySQL的INSERT语句是用于向数据库表中插入新记录的关键命令,下面:本文主要介绍MySQLINSERT语句实现当记录不存在时... 目录使用 INSERT IGNORE使用 ON DUPLICATE KEY UPDATE使用 REPLACE

Python 中的异步与同步深度解析(实践记录)

《Python中的异步与同步深度解析(实践记录)》在Python编程世界里,异步和同步的概念是理解程序执行流程和性能优化的关键,这篇文章将带你深入了解它们的差异,以及阻塞和非阻塞的特性,同时通过实际... 目录python中的异步与同步:深度解析与实践异步与同步的定义异步同步阻塞与非阻塞的概念阻塞非阻塞同步