python实现two way ANOVA

2023-12-01 09:44
文章标签 python 实现 two way anova

本文主要是介绍python实现two way ANOVA,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 目的:用python实现two way ANOVA 双因素方差分析
    • 1. python代码实现
      • 1 加载python库
      • 2 加载数据
      • 3 统计样本重复次数,均值和方差,绘制箱线图
      • 4 查看people和group是否存在交互效应
      • 5 模型拟合与Two Way ANOVA:双因素方差分析
      • 6 多重比较,post hoc t-tests
      • 7 计算效应量Correlation family: η^2、ω^2 (适用于 Correlational data)
    • 2. 双因素方差分析理论和公式
    • 3. 效应量分析

目的:用python实现two way ANOVA 双因素方差分析

1. python代码实现

在这里插入图片描述

1 加载python库

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats   from statsmodels.formula.api import ols                     # 最小二乘法拟合
from statsmodels.stats.anova import anova_lm                # 方差分析
from statsmodels.stats.multicomp import pairwise_tukeyhsd   # post Hoc t_test

2 加载数据

value(month):治疗2周的各类被试的血糖值
group(PhysicalTherapy):表示有两种治疗方案,sham组(1)和rTMS组(2)
people(PsychiatricTreatment):表示有3种被试,年轻健康组(3)、老年健康组(1)、老年患病组(2)

df = pd.read_excel('data//TMS_demoData1.xlsx')
data = pd.DataFrame(df)
data.head(24)
valuegrouppeople
011.011
19.412
212.513
39.611
49.612
511.513
610.811
79.612
810.513
910.511
1010.812
1112.513
1210.521
1310.822
1410.523
1511.521
1610.522
1711.823
1812.021
1910.522
2011.523
2111.821
2210.222
2311.523

3 统计样本重复次数,均值和方差,绘制箱线图

data.describe()
valuegrouppeople
count24.00000024.00000024.000000
mean10.8916671.5000002.000000
std0.8895120.5107540.834058
min9.4000001.0000001.000000
25%10.5000001.0000001.000000
50%10.8000001.5000002.000000
75%11.5000002.0000003.000000
max12.5000002.0000003.000000
fig, ax = plt.subplots(1,2,figsize=(12,6),dpi=600)  # 1行2列的子图
sns.boxplot(x = 'group', y = 'value', data = data, ax = ax[0])
sns.boxplot(x = 'people', y = 'value', data = data, ax = ax[1])## 可以看出rTMS组的血糖水平sham组的高,因此我们得看这是由于治疗方案引起的还是由于随机误差引起的
## 即从试验结果推断,因素 group 对试验结果有无显著影响,即当 group 取不同水平时试验结果有无显著差别
## 第5步方差分析的结果显示,因素 group 对试验结果无显著影响(p = 0.149),即当 group 取不同水平时试验结果无显著差别

请添加图片描述

4 查看people和group是否存在交互效应

  • 主效应:一个自变量变化时,因变量所出现的变化。
  • 交互效应:反应的是两个或多个自变量对因变量的联合影响,这种影响不能简单的通过自变量的主效应相加获得。
fig, ax = plt.subplots(1,2,figsize=(12,6),dpi=600)  # 1行2列的子图
sns.lineplot(y='value', x = 'people', hue = 'group', palette="tab10", data=data, ax = ax[0])
sns.lineplot(y='value', x = 'group', hue = 'people', palette="tab10", data=data, ax = ax[1])

请添加图片描述

从上图可以看出,people 2和3之间是存在交互效应的,下面可以通过方差分析来检验

5 模型拟合与Two Way ANOVA:双因素方差分析

model = ols('value ~C(group) + C(people) + C(group):C(people)', data = data).fit()
anova_table = anova_lm(model, type = 2)
pd.DataFrame(anova_table)
dfsum_sqmean_sqFPR(>F)
C(group)1.00.9600000.9600002.2721890.149064
C(people)2.07.4858333.7429178.8589740.002096
C(group):C(people)2.02.1475001.0737502.5414200.106623
Residual18.07.6050000.422500NaNNaN

根据上述结果可以发现:

  1. people组是小于0.05的,存在显著性差异。即people因素对指标value有显著性影响。
  2. group和两者的交互效应是大于0.05的,接受假设,不存在显著性差异,不存在交互效应。
  3. 因为people对value存在显著性差异,我们得进行进一步的T检验,查看是那两组之间存在显著性差异。
print(model.summary())
                            OLS Regression Results                            
==============================================================================
Dep. Variable:                  value   R-squared:                       0.582
Model:                            OLS   Adj. R-squared:                  0.466
Method:                 Least Squares   F-statistic:                     5.015
Date:                Thu, 30 Nov 2023   Prob (F-statistic):            0.00473
Time:                        17:55:19   Log-Likelihood:                -20.264
No. Observations:                  24   AIC:                             52.53
Df Residuals:                      18   BIC:                             59.60
Df Model:                           5                                         
Covariance Type:            nonrobust                                         
================================================================================================coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------------------------
Intercept                       10.4750      0.325     32.231      0.000       9.792      11.158
C(group)[T.2]                    0.9750      0.460      2.121      0.048       0.009       1.941
C(people)[T.2]                  -0.6250      0.460     -1.360      0.191      -1.591       0.341
C(people)[T.3]                   1.2750      0.460      2.774      0.013       0.309       2.241
C(group)[T.2]:C(people)[T.2]    -0.3250      0.650     -0.500      0.623      -1.691       1.041
C(group)[T.2]:C(people)[T.3]    -1.4000      0.650     -2.154      0.045      -2.766      -0.034
==============================================================================
Omnibus:                        1.196   Durbin-Watson:                   2.279
Prob(Omnibus):                  0.550   Jarque-Bera (JB):                1.081
Skew:                          -0.461   Prob(JB):                        0.582
Kurtosis:                       2.518   Cond. No.                         9.77
==============================================================================Notes:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
print(model.params)
# 拟合公式
# Yij = 10.475*G(1)*P(1) + 0.9150*G(2) - 0.625*P(2) + 1.275*P(3) - 0.325*G(2)*P(2) -1.4*G(2)*P(3)
Intercept                       10.475
C(group)[T.2]                    0.975
C(people)[T.2]                  -0.625
C(people)[T.3]                   1.275
C(group)[T.2]:C(people)[T.2]    -0.325
C(group)[T.2]:C(people)[T.3]    -1.400
dtype: float64

曲线拟合出来的实为每一种组合的均值:拟合参数验算
*** 无论是普通线性模型还是广义线性模型,预测的都是自变量x取特定值时因变量y的平均值。
因变量y的实际取值与其平均值之差被称为误差项,而误差的分布很大程度上决定了使用什么模型。

# Yij = 10.475*G(1)*P(1) + 0.9150*G(2) - 0.625*P(2) + 1.275*P(3) - 0.325*G(2)*P(2) -1.4*G(2)*P(3)
# GPxx:实际值
# Y_GPxx:预测值
''' Group = 1,People = 1 这个作为截距,后面的每一种组合要加上Intercept'''
Intercept = (11+9.6+10.8+10.5)/4 ''' Group = 1, People = 2 '''
GP12 = (9.4+9.6+9.6+10.8)/4
Y_GP12 = 10.475 - 0.625''' Group = 1, People = 3 '''
GP13 = (12.5+11.5+10.5+12.5)/4
Y_GP13 = 10.475 + 1.275''' Group = 2, People = 1 '''
GP21 = (10.5+11.5+12+11.8)/4
Y_GP21 = 10.475 + 0.9105''' Group = 2, People = 2 '''
GP22 = (10.8+10.5+10.5+10.2)/4
Y_GP22 = 10.475 + 0.9105 - 0.625 - 0.325''' Group = 2, People = 3 '''
GP23 = (10.5+11.8+11.5+11.5)/4
Y_GP23 = 10.475 + 0.9105 + 1.275 - 1.4print('Intercept:', Intercept)
print('GP12:',GP12, 'Y_GP12:',Y_GP12)
print('GP13:',GP13, 'Y_GP13:',Y_GP13)
print('GP21:',GP21, 'Y_GP21:',Y_GP21)
print('GP22:',GP22, 'Y_GP22:',Y_GP22)
print('GP23:',GP23, 'Y_GP23:',Y_GP23)
Intercept: 10.475000000000001
GP12: 9.850000000000001 Y_GP12: 9.85
GP13: 11.75 Y_GP13: 11.75
GP21: 11.45 Y_GP21: 11.3855
GP22: 10.5 Y_GP22: 10.435500000000001
GP23: 11.325 Y_GP23: 11.2605

6 多重比较,post hoc t-tests

print("people因子不同水平的比较结果:", pairwise_tukeyhsd(data['value'], data['people']))
print("###########################\n")
print("group 因子不同水平的比较结果:", pairwise_tukeyhsd(data['value'], data['group']))print("结果说明: reject=True,说明两组之间有显著性差异。")
people因子不同水平的比较结果: Multiple Comparison of Means - Tukey HSD, FWER=0.05
===================================================
group1 group2 meandiff p-adj   lower  upper  reject
---------------------------------------------------1      2  -0.7875 0.0935 -1.6876 0.1126  False1      3    0.575 0.2635 -0.3251 1.4751  False2      3   1.3625 0.0028  0.4624 2.2626   True
---------------------------------------------------
###########################group 因子不同水平的比较结果: Multiple Comparison of Means - Tukey HSD, FWER=0.05
===================================================
group1 group2 meandiff p-adj   lower  upper  reject
---------------------------------------------------1      2      0.4 0.2803 -0.3495 1.1495  False
---------------------------------------------------
结果说明: reject=True,说明两组之间有显著性差异。

7 计算效应量Correlation family: η2、ω2 (适用于 Correlational data)

神奇的发现:计算方式不同,但是η^2 = ω^2

# η^2 = (F_A X df_A)/(F_A X df_A +df_e)
yitaG = (2.272 * 1)/(2.272 * 1 + 18)
yitaP = (8.86 * 2)/(8.86 * 2 + 18)
yitaGP = (2.5414 * 2)/(2.5414 * 2 + 18)
print('Group的效应量', yitaG)
print('People的效应量',yitaP)
print('GroupxPeople的效应量',yitaGP)
Group的效应量 0.11207576953433307
People的效应量 0.49608062709966405
GroupxPeople的效应量 0.22019858942589288
# ω^2 = sq_A /(sq_A + sq_e)
oumigaG = 0.96/(0.96 + 7.605)
oumigaP = 7.486/(7.486 + 7.605)
oumigaGP = 2.147/(2.147 + 7.605)
print('Group的效应量', oumigaG)
print('People的效应量',oumigaP)
print('GroupxPeople的效应量',oumigaGP)
Group的效应量 0.11208406304728544
People的效应量 0.49605725266715256
GroupxPeople的效应量 0.22015996718621816

2. 双因素方差分析理论和公式

参考:https://zhuanlan.zhihu.com/p/33357167

3. 效应量分析

参考:https://zhuanlan.zhihu.com/p/137779235

这篇关于python实现two way ANOVA的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/440657

相关文章

使用SpringBoot+InfluxDB实现高效数据存储与查询

《使用SpringBoot+InfluxDB实现高效数据存储与查询》InfluxDB是一个开源的时间序列数据库,特别适合处理带有时间戳的监控数据、指标数据等,下面详细介绍如何在SpringBoot项目... 目录1、项目介绍2、 InfluxDB 介绍3、Spring Boot 配置 InfluxDB4、I

基于Java和FFmpeg实现视频压缩和剪辑功能

《基于Java和FFmpeg实现视频压缩和剪辑功能》在视频处理开发中,压缩和剪辑是常见的需求,本文将介绍如何使用Java结合FFmpeg实现视频压缩和剪辑功能,同时去除数据库操作,仅专注于视频处理,需... 目录引言1. 环境准备1.1 项目依赖1.2 安装 FFmpeg2. 视频压缩功能实现2.1 主要功

使用Python实现无损放大图片功能

《使用Python实现无损放大图片功能》本文介绍了如何使用Python的Pillow库进行无损图片放大,区分了JPEG和PNG格式在放大过程中的特点,并给出了示例代码,JPEG格式可能受压缩影响,需先... 目录一、什么是无损放大?二、实现方法步骤1:读取图片步骤2:无损放大图片步骤3:保存图片三、示php

Python文本相似度计算的方法大全

《Python文本相似度计算的方法大全》文本相似度是指两个文本在内容、结构或语义上的相近程度,通常用0到1之间的数值表示,0表示完全不同,1表示完全相同,本文将深入解析多种文本相似度计算方法,帮助您选... 目录前言什么是文本相似度?1. Levenshtein 距离(编辑距离)核心公式实现示例2. Jac

使用Python实现一个简易计算器的新手指南

《使用Python实现一个简易计算器的新手指南》计算器是编程入门的经典项目,它涵盖了变量、输入输出、条件判断等核心编程概念,通过这个小项目,可以快速掌握Python的基础语法,并为后续更复杂的项目打下... 目录准备工作基础概念解析分步实现计算器第一步:获取用户输入第二步:实现基本运算第三步:显示计算结果进

Python多线程实现大文件快速下载的代码实现

《Python多线程实现大文件快速下载的代码实现》在互联网时代,文件下载是日常操作之一,尤其是大文件,然而,网络条件不稳定或带宽有限时,下载速度会变得很慢,本文将介绍如何使用Python实现多线程下载... 目录引言一、多线程下载原理二、python实现多线程下载代码说明:三、实战案例四、注意事项五、总结引

Python利用PySpark和Kafka实现流处理引擎构建指南

《Python利用PySpark和Kafka实现流处理引擎构建指南》本文将深入解剖基于Python的实时处理黄金组合:Kafka(分布式消息队列)与PySpark(分布式计算引擎)的化学反应,并构建一... 目录引言:数据洪流时代的生存法则第一章 Kafka:数据世界的中央神经系统消息引擎核心设计哲学高吞吐

Python进阶之列表推导式的10个核心技巧

《Python进阶之列表推导式的10个核心技巧》在Python编程中,列表推导式(ListComprehension)是提升代码效率的瑞士军刀,本文将通过真实场景案例,揭示列表推导式的进阶用法,希望对... 目录一、基础语法重构:理解推导式的底层逻辑二、嵌套循环:破解多维数据处理难题三、条件表达式:实现分支

C++ STL-string类底层实现过程

《C++STL-string类底层实现过程》本文实现了一个简易的string类,涵盖动态数组存储、深拷贝机制、迭代器支持、容量调整、字符串修改、运算符重载等功能,模拟标准string核心特性,重点强... 目录实现框架一、默认成员函数1.默认构造函数2.构造函数3.拷贝构造函数(重点)4.赋值运算符重载函数

Java调用Python脚本实现HelloWorld的示例详解

《Java调用Python脚本实现HelloWorld的示例详解》作为程序员,我们经常会遇到需要在Java项目中调用Python脚本的场景,下面我们来看看如何从基础到进阶,一步步实现Java与Pyth... 目录一、环境准备二、基础调用:使用 Runtime.exec()2.1 实现步骤2.2 代码解析三、