整理总结:深入浅出统计学——分散性和变异性的量度

2023-10-13 22:40

本文主要是介绍整理总结:深入浅出统计学——分散性和变异性的量度,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

参考资料:电子工业出版社的《深入浅出统计学》

前言

平均数能让我们知道数据集典型值——数据中心所在处,但若要给数据下具体的结论,则还是缺少足够的信息。通过分析各种距和差,来判断数据集离平均值的波动程度。

本篇目录

  • 参考资料:电子工业出版社的《深入浅出统计学》
    • 前言
    • 具体内容
      • 一、全距
      • 二、迷你距
        • 1、四分位距
        • 2、百分位距
      • 三、箱线图
      • 四、方差和标准差
      • 五、标准分
      • 六、图形的鉴别

具体内容

一、全距

1、通过计算全距,我们可以轻易获知数据分散情况。全距可以指出数据的扩展范围,类似于测量数据的宽度。
2、计算方法是通过用数据集中的最大数减去数据集中的最小数。其中最小值称为下界,最小值称为上界。
3、优点是计算十分简单。
4、缺点是仅仅描述了数据的宽度,没有描述数据在上下界之间的分布形态,难以得出数据的真实分布形态。当存在异常值时,可能导致全距过大,即易受异常值的影响。
在这里插入图片描述

二、迷你距

不再度量整个数据集的全距,而是度量中央部分数据集的全距,通过迷你距可以有效忽略异常值的存在。而通过一个统一的方法来对数据集进行划分,将有助于我们确保多批数据集处理时所有都是以相同的方式忽略了异常值。
在这里插入图片描述

1、四分位距

1、计算步骤是通过将数据进行升序排列,选取其中三个特定位置的数据点来四等份数量划分数据集,并从左到右的称三个点叫作下四分位数、中位数和上四分位数,而四分位距的值便是上四分位数减去下四分位数的差。
2、优点是由于剔除掉头尾各1/4的数据——较小和较大的那一批数据,因此自然而然得把作为极大值或极小值的异常值也一同排除在外了。
3、意义是可以对几个数据集进行比较且比较结果不会被异常值扭曲。
在这里插入图片描述
4、下、上四分位数的位置的快速计算方法如下
在这里插入图片描述在这里插入图片描述

2、百分位距

1、如果我们将一批数据分成一百份的话,那么起分割作用数值就被称作百分位数,通常,第K百分位数就是位于数据范围K%处的数值,常用Pk表示。
2、百分位距不太常用,但对于划分名次、排行却很用有,比如一场考试中第90百分位数是50分,那么可以推测出50分高于等于其他90%的人的分数。
在这里插入图片描述
3、计算步骤如下
在这里插入图片描述

三、箱线图

1、箱线图是一种专门显示各种各样的距的图形,它可以用直观的方法比较多批数据的全局、四分位距和中位数。
2、计算步骤如下
在这里插入图片描述在这里插入图片描述

四、方差和标准差

1、方差是量度数据分散性的一种方法,是数值与均值的距离的平方数的平均值。 δ 2 = ∑ ( x − u ) 2 n {\delta}^2=\frac{\sum {(x-u)}^2}{n} δ2=n(xu)2
2、标准差通过与均值的距离来指出分散性,比方差更加直观。 δ = ∑ ( x − u ) 2 n \delta =\sqrt{\frac{\sum {(x-u)}^2}{n}} δ=n(xu)2
3、标准差的计量单位与相应数据的单位一致,即若以“厘米”进行计量,当标准差为1时,表示在典型情况下,数值与均值相距1厘米。
4、当数据均相等时,标准差为0。

五、标准分

1、通过标准分使多批数据集转化成一种统一通用的分布,进而可以对不同数据集的数据进行比较,而这些不同数据集特性可以互不相同,比如各均值和标准差各不相同。 z = x − u δ z=\frac{x-u}{\delta} z=δxu
2、通过标准分来判断球员在自身历史数据中发挥的如何,是超长发挥还是发挥失利,同时可以判断两个球员的发挥进行比较。在这里插入图片描述

六、图形的鉴别

左图相较于右图而言更加宽阔,这表明其数据大多与均值相距甚远,左图对应的球员1发挥的稳定性不如球员2,具备更多的不可确定性,难以预测他在将来某一场球赛的发挥。
在这里插入图片描述

这篇关于整理总结:深入浅出统计学——分散性和变异性的量度的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/206337

相关文章

Qt实现网络数据解析的方法总结

《Qt实现网络数据解析的方法总结》在Qt中解析网络数据通常涉及接收原始字节流,并将其转换为有意义的应用层数据,这篇文章为大家介绍了详细步骤和示例,感兴趣的小伙伴可以了解下... 目录1. 网络数据接收2. 缓冲区管理(处理粘包/拆包)3. 常见数据格式解析3.1 jsON解析3.2 XML解析3.3 自定义

Python实现图片分割的多种方法总结

《Python实现图片分割的多种方法总结》图片分割是图像处理中的一个重要任务,它的目标是将图像划分为多个区域或者对象,本文为大家整理了一些常用的分割方法,大家可以根据需求自行选择... 目录1. 基于传统图像处理的分割方法(1) 使用固定阈值分割图片(2) 自适应阈值分割(3) 使用图像边缘检测分割(4)

Windows Docker端口占用错误及解决方案总结

《WindowsDocker端口占用错误及解决方案总结》在Windows环境下使用Docker容器时,端口占用错误是开发和运维中常见且棘手的问题,本文将深入剖析该问题的成因,介绍如何通过查看端口分配... 目录引言Windows docker 端口占用错误及解决方案汇总端口冲突形成原因解析诊断当前端口情况解

java常见报错及解决方案总结

《java常见报错及解决方案总结》:本文主要介绍Java编程中常见错误类型及示例,包括语法错误、空指针异常、数组下标越界、类型转换异常、文件未找到异常、除以零异常、非法线程操作异常、方法未定义异常... 目录1. 语法错误 (Syntax Errors)示例 1:解决方案:2. 空指针异常 (NullPoi

Mysql中深分页的五种常用方法整理

《Mysql中深分页的五种常用方法整理》在数据量非常大的情况下,深分页查询则变得很常见,这篇文章为大家整理了5个常用的方法,文中的示例代码讲解详细,大家可以根据自己的需求进行选择... 目录方案一:延迟关联 (Deferred Join)方案二:有序唯一键分页 (Cursor-based Paginatio

Java反转字符串的五种方法总结

《Java反转字符串的五种方法总结》:本文主要介绍五种在Java中反转字符串的方法,包括使用StringBuilder的reverse()方法、字符数组、自定义StringBuilder方法、直接... 目录前言方法一:使用StringBuilder的reverse()方法方法二:使用字符数组方法三:使用自

Python依赖库的几种离线安装方法总结

《Python依赖库的几种离线安装方法总结》:本文主要介绍如何在Python中使用pip工具进行依赖库的安装和管理,包括如何导出和导入依赖包列表、如何下载和安装单个或多个库包及其依赖,以及如何指定... 目录前言一、如何copy一个python环境二、如何下载一个包及其依赖并安装三、如何导出requirem

Mysql中InnoDB与MyISAM索引差异详解(最新整理)

《Mysql中InnoDB与MyISAM索引差异详解(最新整理)》InnoDB和MyISAM在索引实现和特性上有差异,包括聚集索引、非聚集索引、事务支持、并发控制、覆盖索引、主键约束、外键支持和物理存... 目录1. 索引类型与数据存储方式InnoDBMyISAM2. 事务与并发控制InnoDBMyISAM

StarRocks索引详解(最新整理)

《StarRocks索引详解(最新整理)》StarRocks支持多种索引类型,包括主键索引、前缀索引、Bitmap索引和Bloomfilter索引,这些索引类型适用于不同场景,如唯一性约束、减少索引空... 目录1. 主键索引(Primary Key Index)2. 前缀索引(Prefix Index /

Rust格式化输出方式总结

《Rust格式化输出方式总结》Rust提供了强大的格式化输出功能,通过std::fmt模块和相关的宏来实现,主要的输出宏包括println!和format!,它们支持多种格式化占位符,如{}、{:?}... 目录Rust格式化输出方式基本的格式化输出格式化占位符Format 特性总结Rust格式化输出方式