整理总结:深入浅出统计学——分散性和变异性的量度

2023-10-13 22:40

本文主要是介绍整理总结:深入浅出统计学——分散性和变异性的量度,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

参考资料:电子工业出版社的《深入浅出统计学》

前言

平均数能让我们知道数据集典型值——数据中心所在处,但若要给数据下具体的结论,则还是缺少足够的信息。通过分析各种距和差,来判断数据集离平均值的波动程度。

本篇目录

  • 参考资料:电子工业出版社的《深入浅出统计学》
    • 前言
    • 具体内容
      • 一、全距
      • 二、迷你距
        • 1、四分位距
        • 2、百分位距
      • 三、箱线图
      • 四、方差和标准差
      • 五、标准分
      • 六、图形的鉴别

具体内容

一、全距

1、通过计算全距,我们可以轻易获知数据分散情况。全距可以指出数据的扩展范围,类似于测量数据的宽度。
2、计算方法是通过用数据集中的最大数减去数据集中的最小数。其中最小值称为下界,最小值称为上界。
3、优点是计算十分简单。
4、缺点是仅仅描述了数据的宽度,没有描述数据在上下界之间的分布形态,难以得出数据的真实分布形态。当存在异常值时,可能导致全距过大,即易受异常值的影响。
在这里插入图片描述

二、迷你距

不再度量整个数据集的全距,而是度量中央部分数据集的全距,通过迷你距可以有效忽略异常值的存在。而通过一个统一的方法来对数据集进行划分,将有助于我们确保多批数据集处理时所有都是以相同的方式忽略了异常值。
在这里插入图片描述

1、四分位距

1、计算步骤是通过将数据进行升序排列,选取其中三个特定位置的数据点来四等份数量划分数据集,并从左到右的称三个点叫作下四分位数、中位数和上四分位数,而四分位距的值便是上四分位数减去下四分位数的差。
2、优点是由于剔除掉头尾各1/4的数据——较小和较大的那一批数据,因此自然而然得把作为极大值或极小值的异常值也一同排除在外了。
3、意义是可以对几个数据集进行比较且比较结果不会被异常值扭曲。
在这里插入图片描述
4、下、上四分位数的位置的快速计算方法如下
在这里插入图片描述在这里插入图片描述

2、百分位距

1、如果我们将一批数据分成一百份的话,那么起分割作用数值就被称作百分位数,通常,第K百分位数就是位于数据范围K%处的数值,常用Pk表示。
2、百分位距不太常用,但对于划分名次、排行却很用有,比如一场考试中第90百分位数是50分,那么可以推测出50分高于等于其他90%的人的分数。
在这里插入图片描述
3、计算步骤如下
在这里插入图片描述

三、箱线图

1、箱线图是一种专门显示各种各样的距的图形,它可以用直观的方法比较多批数据的全局、四分位距和中位数。
2、计算步骤如下
在这里插入图片描述在这里插入图片描述

四、方差和标准差

1、方差是量度数据分散性的一种方法,是数值与均值的距离的平方数的平均值。 δ 2 = ∑ ( x − u ) 2 n {\delta}^2=\frac{\sum {(x-u)}^2}{n} δ2=n(xu)2
2、标准差通过与均值的距离来指出分散性,比方差更加直观。 δ = ∑ ( x − u ) 2 n \delta =\sqrt{\frac{\sum {(x-u)}^2}{n}} δ=n(xu)2
3、标准差的计量单位与相应数据的单位一致,即若以“厘米”进行计量,当标准差为1时,表示在典型情况下,数值与均值相距1厘米。
4、当数据均相等时,标准差为0。

五、标准分

1、通过标准分使多批数据集转化成一种统一通用的分布,进而可以对不同数据集的数据进行比较,而这些不同数据集特性可以互不相同,比如各均值和标准差各不相同。 z = x − u δ z=\frac{x-u}{\delta} z=δxu
2、通过标准分来判断球员在自身历史数据中发挥的如何,是超长发挥还是发挥失利,同时可以判断两个球员的发挥进行比较。在这里插入图片描述

六、图形的鉴别

左图相较于右图而言更加宽阔,这表明其数据大多与均值相距甚远,左图对应的球员1发挥的稳定性不如球员2,具备更多的不可确定性,难以预测他在将来某一场球赛的发挥。
在这里插入图片描述

这篇关于整理总结:深入浅出统计学——分散性和变异性的量度的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/206337

相关文章

Python版本与package版本兼容性检查方法总结

《Python版本与package版本兼容性检查方法总结》:本文主要介绍Python版本与package版本兼容性检查方法的相关资料,文中提供四种检查方法,分别是pip查询、conda管理、PyP... 目录引言为什么会出现兼容性问题方法一:用 pip 官方命令查询可用版本方法二:conda 管理包环境方法

pycharm跑python项目易出错的问题总结

《pycharm跑python项目易出错的问题总结》:本文主要介绍pycharm跑python项目易出错问题的相关资料,当你在PyCharm中运行Python程序时遇到报错,可以按照以下步骤进行排... 1. 一定不要在pycharm终端里面创建环境安装别人的项目子模块等,有可能出现的问题就是你不报错都安装

深入浅出Java中的Happens-Before核心规则

《深入浅出Java中的Happens-Before核心规则》本文解析Java内存模型中的Happens-Before原则,解释其定义、核心规则及实际应用,帮助理解多线程可见性与有序性问题,掌握并发编程... 目录前言一、Happens-Before是什么?为什么需要它?1.1 从一个问题说起1.2 Haht

Python中logging模块用法示例总结

《Python中logging模块用法示例总结》在Python中logging模块是一个强大的日志记录工具,它允许用户将程序运行期间产生的日志信息输出到控制台或者写入到文件中,:本文主要介绍Pyt... 目录前言一. 基本使用1. 五种日志等级2.  设置报告等级3. 自定义格式4. C语言风格的格式化方法

深入浅出Spring中的@Autowired自动注入的工作原理及实践应用

《深入浅出Spring中的@Autowired自动注入的工作原理及实践应用》在Spring框架的学习旅程中,@Autowired无疑是一个高频出现却又让初学者头疼的注解,它看似简单,却蕴含着Sprin... 目录深入浅出Spring中的@Autowired:自动注入的奥秘什么是依赖注入?@Autowired

Spring 依赖注入与循环依赖总结

《Spring依赖注入与循环依赖总结》这篇文章给大家介绍Spring依赖注入与循环依赖总结篇,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录1. Spring 三级缓存解决循环依赖1. 创建UserService原始对象2. 将原始对象包装成工

MySQL中查询和展示LONGBLOB类型数据的技巧总结

《MySQL中查询和展示LONGBLOB类型数据的技巧总结》在MySQL中LONGBLOB是一种二进制大对象(BLOB)数据类型,用于存储大量的二进制数据,:本文主要介绍MySQL中查询和展示LO... 目录前言1. 查询 LONGBLOB 数据的大小2. 查询并展示 LONGBLOB 数据2.1 转换为十

MyBatis的xml中字符串类型判空与非字符串类型判空处理方式(最新整理)

《MyBatis的xml中字符串类型判空与非字符串类型判空处理方式(最新整理)》本文给大家介绍MyBatis的xml中字符串类型判空与非字符串类型判空处理方式,本文给大家介绍的非常详细,对大家的学习或... 目录完整 Hutool 写法版本对比优化为什么status变成Long?为什么 price 没事?怎

在Java中实现线程之间的数据共享的几种方式总结

《在Java中实现线程之间的数据共享的几种方式总结》在Java中实现线程间数据共享是并发编程的核心需求,但需要谨慎处理同步问题以避免竞态条件,本文通过代码示例给大家介绍了几种主要实现方式及其最佳实践,... 目录1. 共享变量与同步机制2. 轻量级通信机制3. 线程安全容器4. 线程局部变量(ThreadL

Python按照24个实用大方向精选的上千种工具库汇总整理

《Python按照24个实用大方向精选的上千种工具库汇总整理》本文整理了Python生态中近千个库,涵盖数据处理、图像处理、网络开发、Web框架、人工智能、科学计算、GUI工具、测试框架、环境管理等多... 目录1、数据处理文本处理特殊文本处理html/XML 解析文件处理配置文件处理文档相关日志管理日期和