数据分析中的统计Test

2024-08-26 04:32
文章标签 统计 test 数据分析

本文主要是介绍数据分析中的统计Test,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在数据分析中,遇到统计问题的时候,基本可以按照下表来:
statistics method

(图片来源自网上,出处不详)


那么首先我们需要判断是否是正态分布(Normal Distribution), 四种方法:
  1. 绘制数据的直方图,看叠加线——这是一种粗略的方法,且不是硬性( hard-and-fast)指标。一般来说看得多了你就知道哪些是属于正态分布,哪些不属于。

  2. 偏态值(Skewness)峰态值(Kurtosis):
    Skewness 是关于分布是否对称的指标。
    分为正偏态分布(positively skewed distribution ,整体往左偏)和负偏态分布(negatively skewed distribution,整体往右偏)
    Kurtosis 是关于分布峰值陡峭情况的一个指标。
    它是指整个曲线的形状是钟型(bell-shaped )的而不是例如肥胖型或尖峰型等等。
    正态分布的Skewness 和 Kurtosis 都是 0,所以离0 越远越不是正态分布,但是到底多少距离 0 我们可以认为它是正态的呢?这个就难办了,所以出现了下面的办法,它是结合了偏态值和峰态值的一种统计检验方法。

  3. Kolmogorov-Smirnov test (K-S)Shapiro-Wilk (S-W) test
    他们是通过comparing your data to a normal distribution with the same mean and standard deviation of your sample 来检验是否正态的。
    如果检验不显著(NOT significant,即大于0.05),则是正态的,显著的话(significant,即小于0.05),则是非正态的。
    需要注意的是,样本越大,越有可能得到显著的结果。

  4. 另外一种方法就是做图画点的方法,叫做“Normal Q-Q Plot”。
    The black line indicates the values your sample should adhere to if the distribution was normal. The dots are your actual data. If the dots fall exactly on the black line, then your data are normal. If they deviate from the black line, your data are non-normal.

一些很明显不是正态分布的情形:
when the outcome is an ordinal variable or a rank
when there are definite outliers or
when the outcome has clear limits of detection.


第二个就是判断是否是方差齐性(Homogeneity of variance)

首先要知道什么是方差齐性:是指每一个总体的方差都是相同的。它是ANOVA分析的基础。数学表示如下:

这篇关于数据分析中的统计Test的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1107553

相关文章

C++统计函数执行时间的最佳实践

《C++统计函数执行时间的最佳实践》在软件开发过程中,性能分析是优化程序的重要环节,了解函数的执行时间分布对于识别性能瓶颈至关重要,本文将分享一个C++函数执行时间统计工具,希望对大家有所帮助... 目录前言工具特性核心设计1. 数据结构设计2. 单例模式管理器3. RAII自动计时使用方法基本用法高级用法

IDEA与MyEclipse代码量统计方式

《IDEA与MyEclipse代码量统计方式》文章介绍在项目中不安装第三方工具统计代码行数的方法,分别说明MyEclipse通过正则搜索(排除空行和注释)及IDEA使用Statistic插件或调整搜索... 目录项目场景MyEclipse代码量统计IDEA代码量统计总结项目场景在项目中,有时候我们需要统计

SQL Server跟踪自动统计信息更新实战指南

《SQLServer跟踪自动统计信息更新实战指南》本文详解SQLServer自动统计信息更新的跟踪方法,推荐使用扩展事件实时捕获更新操作及详细信息,同时结合系统视图快速检查统计信息状态,重点强调修... 目录SQL Server 如何跟踪自动统计信息更新:深入解析与实战指南 核心跟踪方法1️⃣ 利用系统目录

在Linux终端中统计非二进制文件行数的实现方法

《在Linux终端中统计非二进制文件行数的实现方法》在Linux系统中,有时需要统计非二进制文件(如CSV、TXT文件)的行数,而不希望手动打开文件进行查看,例如,在处理大型日志文件、数据文件时,了解... 目录在linux终端中统计非二进制文件的行数技术背景实现步骤1. 使用wc命令2. 使用grep命令

Python数据分析与可视化的全面指南(从数据清洗到图表呈现)

《Python数据分析与可视化的全面指南(从数据清洗到图表呈现)》Python是数据分析与可视化领域中最受欢迎的编程语言之一,凭借其丰富的库和工具,Python能够帮助我们快速处理、分析数据并生成高质... 目录一、数据采集与初步探索二、数据清洗的七种武器1. 缺失值处理策略2. 异常值检测与修正3. 数据

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

解决tomcat启动时报Junit相关错误java.lang.ClassNotFoundException: org.junit.Test问题

《解决tomcat启动时报Junit相关错误java.lang.ClassNotFoundException:org.junit.Test问题》:本文主要介绍解决tomcat启动时报Junit相... 目录tomcat启动时报Junit相关错误Java.lang.ClassNotFoundException

Pandas中统计汇总可视化函数plot()的使用

《Pandas中统计汇总可视化函数plot()的使用》Pandas提供了许多强大的数据处理和分析功能,其中plot()函数就是其可视化功能的一个重要组成部分,本文主要介绍了Pandas中统计汇总可视化... 目录一、plot()函数简介二、plot()函数的基本用法三、plot()函数的参数详解四、使用pl

Pandas统计每行数据中的空值的方法示例

《Pandas统计每行数据中的空值的方法示例》处理缺失数据(NaN值)是一个非常常见的问题,本文主要介绍了Pandas统计每行数据中的空值的方法示例,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是空值?为什么要统计空值?准备工作创建示例数据统计每行空值数量进一步分析www.chinasem.cn处

Mysql如何将数据按照年月分组的统计

《Mysql如何将数据按照年月分组的统计》:本文主要介绍Mysql如何将数据按照年月分组的统计方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql将数据按照年月分组的统计要的效果方案总结Mysql将数据按照年月分组的统计要的效果方案① 使用 DA