如何衡量两个分布的相似性(更新中)

2024-04-02 01:32

本文主要是介绍如何衡量两个分布的相似性(更新中),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


文章目录

  • 0. 简介
  • 1. 数学定义

https://blog.csdn.net/fengdu78/article/details/114325589
https://www.cnblogs.com/arkenstone/p/5496761.html
https://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test#:~:text=In%20statistics%2C%20the%20Kolmogorov%E2%80%93Smirnov,test)%2C%20or%20to%20compare%20two

0. 简介

KS检验(Kolmogorov–Smirnov test)是由苏联数学家Andrey Kolmogorov和Nikolai Smirnov提出的一种无参数检验方法。它可以用来解决两类问题:

  1. 一个集合中的样本,属于某个具体的分布的概率是多少;
  2. 两个集合的样本,属于同一个分布的概率是多少。

具体来讲,KS检验会计算一个集合的样本的经验分布函数与给定分布函数(或者另一个集合的样本的经验分布函数)的距离。
注意,KS检验只能处理1维特征。

1. 数学定义

对于一个具有n个独立同分布的样本集合 X = { X 1 , X 2 , ⋯ , X n } X=\{X_1,X_2,\cdots,X_n\} X={X1,X2,,Xn},它的经验分布函数(empirical distribution function)为:
F n ( x ) = n u m o f ( s a m p l e s ≤ x ) n = 1 n ∑ i = 1 n 1 [ − ∞ , x ] ( X i ) (1-1) F_n(x)=\frac{num of(samples\leq x)}{n}=\frac{1}{n}\sum_{i=1}^{n}1_{[-\infty,x]}(X_i)\tag{1-1} Fn(x)=nnumof(samplesx)=n1i=1n1[,x](Xi)(1-1)
其中 1 [ − ∞ , y ] ( x ) 1_{[-\infty,y]}(x) 1[,y](x)是指示性函数,当 x ≤ y x\leq y xy时值为1,否则值为0.
对于一个给定的分布函数 F ( x ) F(x) F(x),KS检验就是要计算如下检验量:
D n = sup ⁡ x ∣ F n ( x ) − F ( x ) ∣ D_n=\sup \limits_{x}|F_n(x)-F(x)| Dn=xsupFn(x)F(x)

这篇关于如何衡量两个分布的相似性(更新中)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/868627

相关文章

C# 比较两个list 之间元素差异的常用方法

《C#比较两个list之间元素差异的常用方法》:本文主要介绍C#比较两个list之间元素差异,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录1. 使用Except方法2. 使用Except的逆操作3. 使用LINQ的Join,GroupJoin

MySQL追踪数据库表更新操作来源的全面指南

《MySQL追踪数据库表更新操作来源的全面指南》本文将以一个具体问题为例,如何监测哪个IP来源对数据库表statistics_test进行了UPDATE操作,文内探讨了多种方法,并提供了详细的代码... 目录引言1. 为什么需要监控数据库更新操作2. 方法1:启用数据库审计日志(1)mysql/mariad

Oracle 通过 ROWID 批量更新表的方法

《Oracle通过ROWID批量更新表的方法》在Oracle数据库中,使用ROWID进行批量更新是一种高效的更新方法,因为它直接定位到物理行位置,避免了通过索引查找的开销,下面给大家介绍Orac... 目录oracle 通过 ROWID 批量更新表ROWID 基本概念性能优化建议性能UoTrFPH优化建议注

Redis中6种缓存更新策略详解

《Redis中6种缓存更新策略详解》Redis作为一款高性能的内存数据库,已经成为缓存层的首选解决方案,然而,使用缓存时最大的挑战在于保证缓存数据与底层数据源的一致性,本文将介绍Redis中6种缓存更... 目录引言策略一:Cache-Aside(旁路缓存)策略工作原理代码示例优缺点分析适用场景策略二:Re

Pandas利用主表更新子表指定列小技巧

《Pandas利用主表更新子表指定列小技巧》本文主要介绍了Pandas利用主表更新子表指定列小技巧,通过创建主表和子表的DataFrame对象,并使用映射字典进行数据关联和更新,实现了从主表到子表的同... 目录一、前言二、基本案例1. 创建主表数据2. 创建映射字典3. 创建子表数据4. 更新子表的 zb

MySQL更新某个字段拼接固定字符串的实现

《MySQL更新某个字段拼接固定字符串的实现》在MySQL中,我们经常需要对数据库中的某个字段进行更新操作,本文就来介绍一下MySQL更新某个字段拼接固定字符串的实现,感兴趣的可以了解一下... 目录1. 查看字段当前值2. 更新字段拼接固定字符串3. 验证更新结果mysql更新某个字段拼接固定字符串 -

MySQL新增字段后Java实体未更新的潜在问题与解决方案

《MySQL新增字段后Java实体未更新的潜在问题与解决方案》在Java+MySQL的开发中,我们通常使用ORM框架来映射数据库表与Java对象,但有时候,数据库表结构变更(如新增字段)后,开发人员可... 目录引言1. 问题背景:数据库与 Java 实体不同步1.1 常见场景1.2 示例代码2. 不同操作

C语言实现两个变量值交换的三种方式

《C语言实现两个变量值交换的三种方式》两个变量值的交换是编程中最常见的问题之一,以下将介绍三种变量的交换方式,其中第一种方式是最常用也是最实用的,后两种方式一般只在特殊限制下使用,需要的朋友可以参考下... 目录1.使用临时变量(推荐)2.相加和相减的方式(值较大时可能丢失数据)3.按位异或运算1.使用临时

一文详解SQL Server如何跟踪自动统计信息更新

《一文详解SQLServer如何跟踪自动统计信息更新》SQLServer数据库中,我们都清楚统计信息对于优化器来说非常重要,所以本文就来和大家简单聊一聊SQLServer如何跟踪自动统计信息更新吧... SQL Server数据库中,我们都清楚统计信息对于优化器来说非常重要。一般情况下,我们会开启"自动更新

java两个List的交集,并集方式

《java两个List的交集,并集方式》文章主要介绍了Java中两个List的交集和并集的处理方法,推荐使用Apache的CollectionUtils工具类,因为它简单且不会改变原有集合,同时,文章... 目录Java两个List的交集,并集方法一方法二方法三总结java两个List的交集,并集方法一