数据变异性的度量 - 极差、IQR、方差和标准偏差

2024-04-13 19:08

本文主要是介绍数据变异性的度量 - 极差、IQR、方差和标准偏差,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

aac87cb809ff09139fc57349257234fc.png

来源:DeepHub IMBA
本文约1200字,建议阅读5分钟可变性的最佳衡量标准取决于不同衡量标准和分布水平。

variability被称作变异性或者可变性,它描述了数据点彼此之间以及距分布中心的距离。

可变性有时也称为扩散或者分散。因为它告诉你点是倾向于聚集在中心周围还是更广泛地分散。

低变异性是理想的,因为这意味着可以根据样本数据更好地预测有关总体的信息。高可变性意味着值的一致性较低,因此更难做出预测。在统计学中,我们的目标是测量一组特定数据或一个分布的变异性。简单来说,如果一个分布中的数据值是相同的,那么它没有变异性。

3a1d1400adc22188634af25e6bc6603e.png

上图中尽管数据服从正态分布,但每个样本都有不同的分布。样品 A 的变异性最大,而样品 C 的变异性最小。

可以使用多种不同的方式对变异度进行度量。

极差(Range)

82040922373671fad680d61bc6becdcf.png

极差,又称全距,可以显示数据从分布中的最低值到最高值的分布。

例如,考虑以下数字:1、3、4、5、5、6、7、11。对于这组数字,极差是 11-1 或 10。

76d991967ea0711fc5b12cba1a8203ff.png

极差的度量仅使用了 2 个数字因此受异常值影响很大,并且不会提供有关值分布的任何信息。所以它最好与其他方法结合使用。

四分位距(Interquartile range)

c2411ad5dec32839bd272e6ee939cb19.png

四分位距又被称作四分差,可以提供数据分布中间的分布。

对于从低到高排序的任何分布,四分位距包含数据中一半的值。第一个四分位数 (Q1) 包含前 25% 的值,而第四个四分位数 (Q4) 包含最后 25% 的值。

它衡量数据如何围绕均值分布。基本公式为:IQR = Q3 - Q1

就像极差一样,四分位距在其计算中仅使用 2 个值。但是IQR受异常值的影响较小:这2个值来自数据集的中间一半,所以不太可能是极端数字。

0e020f1cde86bdc30c184ac52ead9228.png

小知识:每个分布都可以使用五个数字摘要进行组织:

  • 最低值

  • Q1:第 25 个百分位

  • Q2:中位数

  • Q3:第 75 个百分位

  • 最高值 (Q4)

25b924afa20c6a6cf141678ef3bd039e.png

方差(Variance)

624864870b671ceb4f09b4fd9a0b48be.png

方差表示数据集的分布范围,但它是一个抽象数字。它反映了数据集中的分散程度。数据越分散,方差与均值的关系就越大。

cdc8cf70798eb8b2f984b68bcdfe2ece.png

  • 小方差 - 数据点往往非常接近均值且彼此非常接近

  • 高方差 - 数据点与均值和彼此之间非常分散

  • 零方差——所有数据值都相同


标准差(Standard Deviation)

标准偏差是数据集中的平均变异量。它平均表示每个数据点与平均值相差多远。标准差越大,数据集的可变性越大。

b82c37787a4987ac06812c8dd271f93e.png

为什么使用 n - 1 作为样本标准差?

当拥有总体数据时可以获得总体标准差的准确值。可以从每个总体成员收集数据,因此标准差反映了分布(总体)中的精确变异量。

但当无法获得所有数据时,就可以对整体数据进行抽样(抽样方式这就不详细介绍)。

抽样的结果就被称作样本,样本的作用是对总体的数据进行统计推断的。当使用样本数据时,样本标准差始终用作总体标准差的估计值。在这个公式中使用 n 往往会给你一个有偏差的估计,它总会低估可变性。

将样本 n 减少到 n - 1 会使标准偏差人为地变大,从而提供对变异性的保守估计。虽然这不是无偏估计,但它是对标准差的偏少估计:高估而不是低估样本的可变性更好。

6c694d24418d20fef58bb16418f25c01.png

标准差低 - 数据点往往接近平均值 标准差高 - 数据点分布在大极差的值上。

什么是变异性的最佳衡量标准?

可变性的最佳衡量标准取决于不同衡量标准和分布水平。

对于在序数水平上测量的数据,极差和四分位距是唯一合适的变异性度量。

对于更复杂的区间和比率的数据,标准差和方差也适用。

对于正态分布,可以使用所有度量。但标准差和方差是首选,因为它们考虑了整个数据集,但这也意味着它们很容易受到异常值的影响。

对于偏态分布或具有异常值的数据集,四分位距是最好的度量。它受极值影响最小,因为它侧重于数据集中间的部分。

编辑:于腾凯

e3f5c084fc1e3e098d215a3cb7e2f495.png

这篇关于数据变异性的度量 - 极差、IQR、方差和标准偏差的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/900970

相关文章

MySQL快速复制一张表的四种核心方法(包括表结构和数据)

《MySQL快速复制一张表的四种核心方法(包括表结构和数据)》本文详细介绍了四种复制MySQL表(结构+数据)的方法,并对每种方法进行了对比分析,适用于不同场景和数据量的复制需求,特别是针对超大表(1... 目录一、mysql 复制表(结构+数据)的 4 种核心方法(面试结构化回答)方法 1:CREATE

详解C++ 存储二进制数据容器的几种方法

《详解C++存储二进制数据容器的几种方法》本文主要介绍了详解C++存储二进制数据容器,包括std::vector、std::array、std::string、std::bitset和std::ve... 目录1.std::vector<uint8_t>(最常用)特点:适用场景:示例:2.std::arra

MySQL中的DELETE删除数据及注意事项

《MySQL中的DELETE删除数据及注意事项》MySQL的DELETE语句是数据库操作中不可或缺的一部分,通过合理使用索引、批量删除、避免全表删除、使用TRUNCATE、使用ORDERBY和LIMI... 目录1. 基本语法单表删除2. 高级用法使用子查询删除删除多表3. 性能优化策略使用索引批量删除避免

MySQL 数据库进阶之SQL 数据操作与子查询操作大全

《MySQL数据库进阶之SQL数据操作与子查询操作大全》本文详细介绍了SQL中的子查询、数据添加(INSERT)、数据修改(UPDATE)和数据删除(DELETE、TRUNCATE、DROP)操作... 目录一、子查询:嵌套在查询中的查询1.1 子查询的基本语法1.2 子查询的实战示例二、数据添加:INSE

Linux服务器数据盘移除并重新挂载的全过程

《Linux服务器数据盘移除并重新挂载的全过程》:本文主要介绍在Linux服务器上移除并重新挂载数据盘的整个过程,分为三大步:卸载文件系统、分离磁盘和重新挂载,每一步都有详细的步骤和注意事项,确保... 目录引言第一步:卸载文件系统第二步:分离磁盘第三步:重新挂载引言在 linux 服务器上移除并重新挂p

使用MyBatis TypeHandler实现数据加密与解密的具体方案

《使用MyBatisTypeHandler实现数据加密与解密的具体方案》在我们日常的开发工作中,经常会遇到一些敏感数据需要存储,比如用户的手机号、身份证号、银行卡号等,为了保障数据安全,我们通常会对... 目录1. 核心概念:什么是 TypeHandler?2. 实战场景3. 代码实现步骤步骤 1:定义 E

使用C#导出Excel数据并保存多种格式的完整示例

《使用C#导出Excel数据并保存多种格式的完整示例》在现代企业信息化管理中,Excel已经成为最常用的数据存储和分析工具,从员工信息表、销售数据报表到财务分析表,几乎所有部门都离不开Excel,本文... 目录引言1. 安装 Spire.XLS2. 创建工作簿和填充数据3. 保存为不同格式4. 效果展示5

Python多任务爬虫实现爬取图片和GDP数据

《Python多任务爬虫实现爬取图片和GDP数据》本文主要介绍了基于FastAPI开发Web站点的方法,包括搭建Web服务器、处理图片资源、实现多任务爬虫和数据可视化,同时,还简要介绍了Python爬... 目录一. 基于FastAPI之Web站点开发1. 基于FastAPI搭建Web服务器2. Web服务

MySQL 批量插入的原理和实战方法(快速提升大数据导入效率)

《MySQL批量插入的原理和实战方法(快速提升大数据导入效率)》在日常开发中,我们经常需要将大量数据批量插入到MySQL数据库中,本文将介绍批量插入的原理、实现方法,并结合Python和PyMySQ... 目录一、批量插入的优势二、mysql 表的创建示例三、python 实现批量插入1. 安装 PyMyS

关于MySQL将表中数据删除后多久空间会被释放出来

《关于MySQL将表中数据删除后多久空间会被释放出来》MySQL删除数据后,空间不会立即释放给操作系统,而是会被标记为“可重用”,以供未来插入新数据时使用,只有满足特定条件时,空间才可能真正返还给操作... 目录一、mysql数据删除与空间管理1.1 理解MySQL数据删除原理1.3 执行SQL1.3 使用