数据分析中的统计Test

2024-08-26 04:32
文章标签 统计 test 数据分析

本文主要是介绍数据分析中的统计Test,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在数据分析中,遇到统计问题的时候,基本可以按照下表来:
statistics method

(图片来源自网上,出处不详)


那么首先我们需要判断是否是正态分布(Normal Distribution), 四种方法:
  1. 绘制数据的直方图,看叠加线——这是一种粗略的方法,且不是硬性( hard-and-fast)指标。一般来说看得多了你就知道哪些是属于正态分布,哪些不属于。

  2. 偏态值(Skewness)峰态值(Kurtosis):
    Skewness 是关于分布是否对称的指标。
    分为正偏态分布(positively skewed distribution ,整体往左偏)和负偏态分布(negatively skewed distribution,整体往右偏)
    Kurtosis 是关于分布峰值陡峭情况的一个指标。
    它是指整个曲线的形状是钟型(bell-shaped )的而不是例如肥胖型或尖峰型等等。
    正态分布的Skewness 和 Kurtosis 都是 0,所以离0 越远越不是正态分布,但是到底多少距离 0 我们可以认为它是正态的呢?这个就难办了,所以出现了下面的办法,它是结合了偏态值和峰态值的一种统计检验方法。

  3. Kolmogorov-Smirnov test (K-S)Shapiro-Wilk (S-W) test
    他们是通过comparing your data to a normal distribution with the same mean and standard deviation of your sample 来检验是否正态的。
    如果检验不显著(NOT significant,即大于0.05),则是正态的,显著的话(significant,即小于0.05),则是非正态的。
    需要注意的是,样本越大,越有可能得到显著的结果。

  4. 另外一种方法就是做图画点的方法,叫做“Normal Q-Q Plot”。
    The black line indicates the values your sample should adhere to if the distribution was normal. The dots are your actual data. If the dots fall exactly on the black line, then your data are normal. If they deviate from the black line, your data are non-normal.

一些很明显不是正态分布的情形:
when the outcome is an ordinal variable or a rank
when there are definite outliers or
when the outcome has clear limits of detection.


第二个就是判断是否是方差齐性(Homogeneity of variance)

首先要知道什么是方差齐性:是指每一个总体的方差都是相同的。它是ANOVA分析的基础。数学表示如下:

这篇关于数据分析中的统计Test的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1107553

相关文章

Python数据分析与可视化的全面指南(从数据清洗到图表呈现)

《Python数据分析与可视化的全面指南(从数据清洗到图表呈现)》Python是数据分析与可视化领域中最受欢迎的编程语言之一,凭借其丰富的库和工具,Python能够帮助我们快速处理、分析数据并生成高质... 目录一、数据采集与初步探索二、数据清洗的七种武器1. 缺失值处理策略2. 异常值检测与修正3. 数据

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

解决tomcat启动时报Junit相关错误java.lang.ClassNotFoundException: org.junit.Test问题

《解决tomcat启动时报Junit相关错误java.lang.ClassNotFoundException:org.junit.Test问题》:本文主要介绍解决tomcat启动时报Junit相... 目录tomcat启动时报Junit相关错误Java.lang.ClassNotFoundException

Pandas中统计汇总可视化函数plot()的使用

《Pandas中统计汇总可视化函数plot()的使用》Pandas提供了许多强大的数据处理和分析功能,其中plot()函数就是其可视化功能的一个重要组成部分,本文主要介绍了Pandas中统计汇总可视化... 目录一、plot()函数简介二、plot()函数的基本用法三、plot()函数的参数详解四、使用pl

Pandas统计每行数据中的空值的方法示例

《Pandas统计每行数据中的空值的方法示例》处理缺失数据(NaN值)是一个非常常见的问题,本文主要介绍了Pandas统计每行数据中的空值的方法示例,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是空值?为什么要统计空值?准备工作创建示例数据统计每行空值数量进一步分析www.chinasem.cn处

Mysql如何将数据按照年月分组的统计

《Mysql如何将数据按照年月分组的统计》:本文主要介绍Mysql如何将数据按照年月分组的统计方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql将数据按照年月分组的统计要的效果方案总结Mysql将数据按照年月分组的统计要的效果方案① 使用 DA

一文详解SQL Server如何跟踪自动统计信息更新

《一文详解SQLServer如何跟踪自动统计信息更新》SQLServer数据库中,我们都清楚统计信息对于优化器来说非常重要,所以本文就来和大家简单聊一聊SQLServer如何跟踪自动统计信息更新吧... SQL Server数据库中,我们都清楚统计信息对于优化器来说非常重要。一般情况下,我们会开启"自动更新

opencv实现像素统计的示例代码

《opencv实现像素统计的示例代码》本文介绍了OpenCV中统计图像像素信息的常用方法和函数,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1. 统计像素值的基本信息2. 统计像素值的直方图3. 统计像素值的总和4. 统计非零像素的数量

如何使用 Bash 脚本中的time命令来统计命令执行时间(中英双语)

《如何使用Bash脚本中的time命令来统计命令执行时间(中英双语)》本文介绍了如何在Bash脚本中使用`time`命令来测量命令执行时间,包括`real`、`user`和`sys`三个时间指标,... 使用 Bash 脚本中的 time 命令来统计命令执行时间在日常的开发和运维过程中,性能监控和优化是不

hdu1496(用hash思想统计数目)

作为一个刚学hash的孩子,感觉这道题目很不错,灵活的运用的数组的下标。 解题步骤:如果用常规方法解,那么时间复杂度为O(n^4),肯定会超时,然后参考了网上的解题方法,将等式分成两个部分,a*x1^2+b*x2^2和c*x3^2+d*x4^2, 各自作为数组的下标,如果两部分相加为0,则满足等式; 代码如下: #include<iostream>#include<algorithm