泛统计理论初探——高阶描述统计指标

2023-10-06 21:59

本文主要是介绍泛统计理论初探——高阶描述统计指标,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

统计学习-高阶统计指标

再谈描述性统计指标
在上一篇文章中,我们探讨了一些最常见的统计指标:比如中位数,平均数,众数等指标。其实上一篇文章讨论的都是一阶的统计指标,即根据当前的数据能够直接计算或观察得到的指标,这种一阶指标不需要再借助其他指标去做进一步计算的。那么既然有一阶指标,就会有二阶的指标以及高阶的指标。因此在本文中,我们将会介绍几种高阶的统计指标,并阐述如何在实际情况中去使用这些指标,从而帮助使用者尽快认知当前数据的一些特性,从而更好地去处理实际问题。
首先我们要探讨的是标准差这个指标,它是由方差开平方根得到的指标。而方差的计算会用到平均值,所以使用者应该首先根据数据计算得出均值,然后根据均值开始计算方差,即计算每个样本与均值的距离平方和,最后把所有的距离平方和加到一起,得出方差。根据上述的表达,其实本质上来说,方差就是一个数据散度的指标,即方差越大,数据的散度越大,数据波动性较大,离均值远的样本较多。而方差越小,则说明数据的散度越小,数据较为稳定,离均值近的样本较多。方差这个指标在数据竞赛中,通常被作为体现数据波动的一个指标,如果数据在某一维度的方差较大,则要注意是否需要使用对数函数进行数据压缩,或是使用Box-Cox变换等。因为如果不做处理的话,后期会影响整体的模型参数,存在异方差等问题,所以要多加注意。
其次我们来谈谈偏度,偏度是一种三阶的统计指标,它用来反映数据偏度情况,可以用来观察数据的分布情况,进一步认识数据是否均匀,如果右偏,则要将数据进行某种程度的放大;如果左偏,则要将数据进行某种程度的压缩。在某种程度上,如果数据是左偏或右偏,需要进行数据变换处理,从而达到正态分布,为后续的分析做铺垫。
在这里插入图片描述
根据上图,左边的曲线是右偏,它的偏度系数大于0。右边的曲线是左偏,它的偏度系数小于0。而偏度的计算其实有两种,一种是基于众数的计算,一种是基于平均数的计算。
在这里插入图片描述
上面的左边的公式就是根据众数计算得到的,其中分母是标准差,M0代表众数。如果SK值大于0,代表右偏;SK值小于0,代表左偏。其中SK的绝对值代表偏态的程度,绝对值越大代表偏的越厉害。而右边的两个式子则是根据平均值进行计算得到的偏度。
在这里插入图片描述
最后我们再来探讨峰度这个指标,这个指标主要是反映数据的分布的凸起程度以及尾部的粗细程度。根据这个指标我们可以看出数据的分布到底是分布在离平均值附近还是远离平均值。它本质上是一种四阶指标,而在表达式的后面我们看到减去了3,因为正态分布的峰度值为3,所以峰度如果大于0则代表数据非常集中,两边的数据较少,即股票的每日交易数据,每天的交易价格都在当日的平均值附近。而如果峰度小于0,则代表数据区分度较低,类似于均匀分布。
总的来说,理解标准差、偏度、峰度这些指标对使用者了解数据的特征有利,因为这些高阶指标可以大致的让数据使用者看清数据的分布形态,并根据分布形态去进行一些数据的放缩处理,最终使得数据近似为正态分布。

这篇关于泛统计理论初探——高阶描述统计指标的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/154138

相关文章

解读GC日志中的各项指标用法

《解读GC日志中的各项指标用法》:本文主要介绍GC日志中的各项指标用法,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、基础 GC 日志格式(以 G1 为例)1. Minor GC 日志2. Full GC 日志二、关键指标解析1. GC 类型与触发原因2. 堆

在Linux终端中统计非二进制文件行数的实现方法

《在Linux终端中统计非二进制文件行数的实现方法》在Linux系统中,有时需要统计非二进制文件(如CSV、TXT文件)的行数,而不希望手动打开文件进行查看,例如,在处理大型日志文件、数据文件时,了解... 目录在linux终端中统计非二进制文件的行数技术背景实现步骤1. 使用wc命令2. 使用grep命令

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

Pandas中统计汇总可视化函数plot()的使用

《Pandas中统计汇总可视化函数plot()的使用》Pandas提供了许多强大的数据处理和分析功能,其中plot()函数就是其可视化功能的一个重要组成部分,本文主要介绍了Pandas中统计汇总可视化... 目录一、plot()函数简介二、plot()函数的基本用法三、plot()函数的参数详解四、使用pl

Pandas统计每行数据中的空值的方法示例

《Pandas统计每行数据中的空值的方法示例》处理缺失数据(NaN值)是一个非常常见的问题,本文主要介绍了Pandas统计每行数据中的空值的方法示例,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是空值?为什么要统计空值?准备工作创建示例数据统计每行空值数量进一步分析www.chinasem.cn处

Mysql如何将数据按照年月分组的统计

《Mysql如何将数据按照年月分组的统计》:本文主要介绍Mysql如何将数据按照年月分组的统计方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql将数据按照年月分组的统计要的效果方案总结Mysql将数据按照年月分组的统计要的效果方案① 使用 DA

Android Kotlin 高阶函数详解及其在协程中的应用小结

《AndroidKotlin高阶函数详解及其在协程中的应用小结》高阶函数是Kotlin中的一个重要特性,它能够将函数作为一等公民(First-ClassCitizen),使得代码更加简洁、灵活和可... 目录1. 引言2. 什么是高阶函数?3. 高阶函数的基础用法3.1 传递函数作为参数3.2 Lambda

一文详解SQL Server如何跟踪自动统计信息更新

《一文详解SQLServer如何跟踪自动统计信息更新》SQLServer数据库中,我们都清楚统计信息对于优化器来说非常重要,所以本文就来和大家简单聊一聊SQLServer如何跟踪自动统计信息更新吧... SQL Server数据库中,我们都清楚统计信息对于优化器来说非常重要。一般情况下,我们会开启"自动更新

opencv实现像素统计的示例代码

《opencv实现像素统计的示例代码》本文介绍了OpenCV中统计图像像素信息的常用方法和函数,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1. 统计像素值的基本信息2. 统计像素值的直方图3. 统计像素值的总和4. 统计非零像素的数量

如何使用 Bash 脚本中的time命令来统计命令执行时间(中英双语)

《如何使用Bash脚本中的time命令来统计命令执行时间(中英双语)》本文介绍了如何在Bash脚本中使用`time`命令来测量命令执行时间,包括`real`、`user`和`sys`三个时间指标,... 使用 Bash 脚本中的 time 命令来统计命令执行时间在日常的开发和运维过程中,性能监控和优化是不