统计杂碎记录

2023-12-14 21:08
文章标签 统计 记录 杂碎

本文主要是介绍统计杂碎记录,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

统计杂碎记录

PS: 记录一些自己平时遇到的数理统计概念,持续更新中,后续补充学习

1. nested random intercept effects
建议参考:Visualizing Nested and Cross Random Effects

2. 方差膨胀因子Variance Inflation Factor (VIF)
这个概念呢其实在做PCA, RDA或者其它类似的分析时可能会用到。
首先要知道多重共线性:当解释变量之间存在一定程度的相关性(近似共线性)时,也可以称之为多重共线性。
这会造成什么后果呢?当有多重共线性的情况发生时,参数估计的结果不再具有有效性,因此,在进行逻辑回归之前,我们需要通过VIF检验排除掉某些有多重共线性的变量。通常,当VIF>10时,就认为存在多重共线性,该特征需要删除。

VIF指的是解释变量之间存在多重共线性时的方差与不存在多重共线性时的方差之比,可以反映多重共线性导致的方差的增加程度。
V I F = 1 1 − R 2 VIF =\frac{1}{1-R^{2}} VIF=1R21

这里的R2,即线性回归中的决定系数,可以由因变量和自变量之间的复相关系数的平方得到。
为了得到每一个变量的 VIF,我们需要以每一个变量为因变量对其余所有变量进行线性回归,对每一个变量得到各自的R2,再计算每一个变量的 VIF。

具体计算例子可参考
数理统计基础——多重共线性、方差膨胀因子和决定系数

3. 置换多元变量分析/置换多元方差分析(Permutational multivariate analysis of variance,PERMANOVA)
当因变量不止一个时,即一个或多个因子变量对应了多个因变量时,可使用多元方差分析(MANOVA)。
但是其条件非常苛刻,要求数据满足多元正态性、方差-协方差矩阵同质性,大部分案例中都是直接拒绝的。

这里补充一下协方差矩阵:
【多维随机变量的协方差矩阵】对多维随机变量X=[X1, X2, X3, … , Xn]T 我们需要计算各维度两两之间的协方差,这样各协方差就组成了一个 n x n 的矩阵,成为协方差矩阵。协方差矩阵是个对称矩阵,对角线上的元素是各维度上随机变量的方差(其实就是方差-协方差矩阵)。定义协方差矩阵为∑,矩阵内的元素 ∑ij 为:
∑ i j = c o v ( X i , X j ) = E [ ( X i − E ( X i ) ) ( X j − E ( X j ) ) ] \displaystyle\sum_{ij} =cov(X_i, X_j)=E[(X_i-E(X_i))(X_j-E(X_j))] ij=cov(Xi,Xj)=E[(XiE(Xi))(XjE(Xj))]

替代方法可选择稳健MANOVA,或者而非参数的方法,常用置换多元方差分析(PERMANOVA),又称非参数多因素方差分析(nonparametric multivariate analysis of variance),或Adoins分析,其本质是基于F统计的方差分析,依据距离矩阵对总方差进行分解的非参数多元方差分析方法。可利用半度量(如Bray-Curtis)或度量距离矩阵(如Euclidean)对总方差进行分析,通过线性模型分析不同组因素或环境因子(如临床表型数据、土壤理化指标等)对样品差异的解释度,并用置换检验进行显著性分析
使用PERMANOVA可分析不同分组因素对样品差异的解释度,并使用置换检验进行显著性统计

这里再补充一下, MRPP多响应置换过程分析(Multiple Response Permutation Procedure)。用来检验组间(两组或多组)的差异是否显著大于组内差异。与ANOSIM分析类似,可利用半度量或度量距离矩阵计算A值表示组间差异,使用置换检验对分组进行显著性分析。
还有一个,ANOSIM相似性分析。是一种非参数检验,用于检验高纬度数据间的相似性,比较组间和组内差异的大小,从而判断分组是否有意义。可以用于检验两组的组间和组内差异,也可以用于多组。
原理如下,以最基本的两个组为例:
现一共有6个样本,根据我们的实验方案将其氛围两组,Group1和Group2,每组含有3个样本。
1 首先基于组内样本间的距离计算组内的相似性
在这里插入图片描述
2 基于组间的距离计算组间的相似性
在这里插入图片描述
结合组内和组间,得到:
在这里插入图片描述
然后根据公式计算R值:
在这里插入图片描述
rb 和 rw分别为组间和组内差异性秩的平均值;n 即样本数量
因此,R 取值范围为 [-1, 1]:
当R趋向于1时,说明组间差异大于组内差异;
当 R=0 时,说明组间没有差异,即分组无效,不同分组之间没有差异;
当 R 趋向于 -1 时,说明组间差异小于组内差异。
当 R>0 时,还要进一步检验这种差异是否具有可信度,ANOSIM中对其的检验方法也是使用置换检验。

在这里插入图片描述
以上关于ANOSIM相似性分析的图片是参考了哪个网站上的讲解,并非本人原创,但是不记得是在哪里看到做的笔记了……以后找到会补充上。

这篇关于统计杂碎记录的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/493879

相关文章

在Spring Boot中集成RabbitMQ的实战记录

《在SpringBoot中集成RabbitMQ的实战记录》本文介绍SpringBoot集成RabbitMQ的步骤,涵盖配置连接、消息发送与接收,并对比两种定义Exchange与队列的方式:手动声明(... 目录前言准备工作1. 安装 RabbitMQ2. 消息发送者(Producer)配置1. 创建 Spr

在Linux终端中统计非二进制文件行数的实现方法

《在Linux终端中统计非二进制文件行数的实现方法》在Linux系统中,有时需要统计非二进制文件(如CSV、TXT文件)的行数,而不希望手动打开文件进行查看,例如,在处理大型日志文件、数据文件时,了解... 目录在linux终端中统计非二进制文件的行数技术背景实现步骤1. 使用wc命令2. 使用grep命令

k8s上运行的mysql、mariadb数据库的备份记录(支持x86和arm两种架构)

《k8s上运行的mysql、mariadb数据库的备份记录(支持x86和arm两种架构)》本文记录在K8s上运行的MySQL/MariaDB备份方案,通过工具容器执行mysqldump,结合定时任务实... 目录前言一、获取需要备份的数据库的信息二、备份步骤1.准备工作(X86)1.准备工作(arm)2.手

SpringBoot3应用中集成和使用Spring Retry的实践记录

《SpringBoot3应用中集成和使用SpringRetry的实践记录》SpringRetry为SpringBoot3提供重试机制,支持注解和编程式两种方式,可配置重试策略与监听器,适用于临时性故... 目录1. 简介2. 环境准备3. 使用方式3.1 注解方式 基础使用自定义重试策略失败恢复机制注意事项

Python UV安装、升级、卸载详细步骤记录

《PythonUV安装、升级、卸载详细步骤记录》:本文主要介绍PythonUV安装、升级、卸载的详细步骤,uv是Astral推出的下一代Python包与项目管理器,主打单一可执行文件、极致性能... 目录安装检查升级设置自动补全卸载UV 命令总结 官方文档详见:https://docs.astral.sh/

统一返回JsonResult踩坑的记录

《统一返回JsonResult踩坑的记录》:本文主要介绍统一返回JsonResult踩坑的记录,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录统一返回jsonResult踩坑定义了一个统一返回类在使用时,JsonResult没有get/set方法时响应总结统一返回

Go学习记录之runtime包深入解析

《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,:本文主要介绍Go学习记录之runtime包的... 目录前言:一、runtime包内容学习1、作用:① Goroutine和并发控制:② 垃圾回收:③ 栈和

java对接海康摄像头的完整步骤记录

《java对接海康摄像头的完整步骤记录》在Java中调用海康威视摄像头通常需要使用海康威视提供的SDK,下面这篇文章主要给大家介绍了关于java对接海康摄像头的完整步骤,文中通过代码介绍的非常详细,需... 目录一、开发环境准备二、实现Java调用设备接口(一)加载动态链接库(二)结构体、接口重定义1.类型

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

apache的commons-pool2原理与使用实践记录

《apache的commons-pool2原理与使用实践记录》ApacheCommonsPool2是一个高效的对象池化框架,通过复用昂贵资源(如数据库连接、线程、网络连接)优化系统性能,这篇文章主... 目录一、核心原理与组件二、使用步骤详解(以数据库连接池为例)三、高级配置与优化四、典型应用场景五、注意事