解决等概率随机抽样问题

2023-10-12 00:59

本文主要是介绍解决等概率随机抽样问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 本篇讨论蓄水库抽样算法 的 原理及其实现


最近在CSDN技术贴区看到一个帖子讨论这个问题:

问题:100个苹果完全随机分给4人,每人可能得0~100个。设计一个随机分配算法。要求:在结果随机(不可预知)基础上每种分配概率均等。如(25,25,25,25),(0,0,0,100)都是分配结果,机率一样

看到下面有大量的讨论,我感觉都不是很对,所以写了这篇那博文,来讨论下这个问题。


下面我们先看看随机抽样问题,理解了这个算法,上述题目也可以解决。

要求从N个元素中随机的抽取k个元素,其中N无法确定。

这种应用的场景一般是数据流的情况下,由于数据只能被读取一次,而且数据量很大,并不能全部保存,因此数据量N是无法在抽样开始时确定的;但又要保持随机性,于是有了这个问题。所以搜索网站有时候会问这样的问题。这里的核心问题就是“随机”,怎么才能是随机的抽取元素呢?我们设想,买彩票的时候,由于所有彩票的中奖概率都是一样的,所以我们才是“随机的”买彩票。那么要使抽取数据也随机,必须使每一个数据被抽样出来的概率都一样。

解决方案就是蓄水库抽样(reservoid sampling)。主要思想就是保持一个集合(这个集合中的每个数字出现),作为蓄水池,依次遍历所有数据的时候以一定概率替换这个蓄水池中的数字。

[cpp] view plain copy 在CODE上查看代码片 派生到我的代码片
  1. Init : a reservoir with the size: k  
  2.   
  3. for   i= k+1 to N  
  4.        M=random(1, i);  
  5.        if( M < k)  
  6.                SWAP the Mth value and ith value  
  7.  end for  

上面是算法的伪代码实现。 解释一下:程序的开始就是把前k个元素都放到水库中,然后对之后的第i个元素,以 k/i 的概率替换掉这个水库中的某一个元素。

下面来具体证明一下:每个水库中的元素出现概率都是相等的。

【证明】

(1)初始情况。出现在水库中的k个元素的出现概率都是一致的,都是1。这个很显然。

(2)第一步。第一步就是指,处理第k+1个元素的情况。分两种情况:元素全部都没有被替换;其中某个元素被第k+1个元素替换掉。

我们先看情况2:第k+1个元素被选中的概率是k/(k+1)(根据公式k/i),所以这个新元素在水库中出现的概率就一定是k/(k+1)(不管它替换掉哪个元素,反正肯定它是以这个概率出现在水库中)。下面来看水库中剩余的元素出现的概率,也就是1-P(这个元素被替换掉的概率)。水库中任意一个元素被替换掉的概率是:(k/k+1)*(1/k)=1/(k+1),意即首先要第k+1个元素被选中,然后自己在集合的k个元素中被选中。那它出现的概率就是1-1/(k+1)=k/(k+1)。可以看出来,旧元素和新元素出现的概率是相等的。

情况1:当元素全部都没有替换掉的时候,每个元素的出现概率肯定是一样的,这很显然。但具体是多少呢?就是1-P(第k+1个元素被选中)=1-k/(k+1)=1/(k+1)。

(3)归纳法:重复上面的过程,只要证明第i步到第i+1步,所有元素出现的概率是相等的即可。

上面是我从网上找的一段比较好的证明过程。其实简单说就是可能被替换的概率1/k,可能能选到的替换体概率 1/(i+1)*k.然后两个相乘,结果是 1/i+1。所有的都是等概率的。

有了上面这个算法的支持,我们就可以很容易相处上面题目的解法,从上1-100个数中使用上面算法等概率的取出三个数,这三个数会把1-100 分成四分,然后这四分就是我们的分法。

下面是我实现的代码:

[cpp] view plain copy 在CODE上查看代码片 派生到我的代码片
  1. #include<iostream>  
  2. #include<time.h>  
  3. #include<stdio.h>  
  4. using namespace std;  
  5.   
  6. const int  N=100;  
  7. const int  pool=3;  
  8.   
  9. void div(void);  
  10. void swap(int *a,int *b);  
  11. int  random(int min, int max);  
  12.   
  13. int main(void)  
  14. {  
  15.     div();  
  16.     system("pause");  
  17.     return 0;  
  18. }  
  19. void div()  
  20. {  
  21.       int  I_rus[N];  
  22.       int  I_cun[pool];  
  23.       //初始化原始资源  
  24.       for(int i=0;i<N;i++)  
  25.           I_rus[i]=1+i;  
  26.       //初始化缓冲池  
  27.       for(int j=0;j<pool;j++)  
  28.           I_cun[j]=1+j;  
  29.       //算法开始  
  30.       for(int k=pool+1;k<N;k++)  
  31.       {  
  32.           int tem=random(1,k);  
  33.           if(tem<pool)  
  34.               swap(I_cun[tem],I_rus[k]);  
  35.       }  
  36.       cout<<I_cun[0]<<endl;  
  37.       cout<<I_cun[1]<<endl;  
  38.       cout<<I_cun[2]<<endl;  
  39.    
  40.   
  41. }  
  42. void swap(int *a,int *b)  
  43. {  
  44.     int tem;  
  45.     tem =*a;  
  46.     *a  =*b;  
  47.     *b  =tem;  
  48. }  
  49. //产生随机数1-i  
  50. int  random(int min, int max)  
  51. {  
  52.     srand( (unsigned)time( NULL ) );  
  53.     return (min+rand() % (max-min+1))-1;  
  54. }  

下面是一次运行结果,使用这三个数把1-100 分成四块就可以产生想要的结果。(我没有做排序)



这篇关于解决等概率随机抽样问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/192105

相关文章

Vue3绑定props默认值问题

《Vue3绑定props默认值问题》使用Vue3的defineProps配合TypeScript的interface定义props类型,并通过withDefaults设置默认值,使组件能安全访问传入的... 目录前言步骤步骤1:使用 defineProps 定义 Props步骤2:设置默认值总结前言使用T

504 Gateway Timeout网关超时的根源及完美解决方法

《504GatewayTimeout网关超时的根源及完美解决方法》在日常开发和运维过程中,504GatewayTimeout错误是常见的网络问题之一,尤其是在使用反向代理(如Nginx)或... 目录引言为什么会出现 504 错误?1. 探索 504 Gateway Timeout 错误的根源 1.1 后端

Web服务器-Nginx-高并发问题

《Web服务器-Nginx-高并发问题》Nginx通过事件驱动、I/O多路复用和异步非阻塞技术高效处理高并发,结合动静分离和限流策略,提升性能与稳定性... 目录前言一、架构1. 原生多进程架构2. 事件驱动模型3. IO多路复用4. 异步非阻塞 I/O5. Nginx高并发配置实战二、动静分离1. 职责2

解决升级JDK报错:module java.base does not“opens java.lang.reflect“to unnamed module问题

《解决升级JDK报错:modulejava.basedoesnot“opensjava.lang.reflect“tounnamedmodule问题》SpringBoot启动错误源于Jav... 目录问题描述原因分析解决方案总结问题描述启动sprintboot时报以下错误原因分析编程异js常是由Ja

深度剖析SpringBoot日志性能提升的原因与解决

《深度剖析SpringBoot日志性能提升的原因与解决》日志记录本该是辅助工具,却为何成了性能瓶颈,SpringBoot如何用代码彻底破解日志导致的高延迟问题,感兴趣的小伙伴可以跟随小编一起学习一下... 目录前言第一章:日志性能陷阱的底层原理1.1 日志级别的“双刃剑”效应1.2 同步日志的“吞吐量杀手”

MySQL 表空却 ibd 文件过大的问题及解决方法

《MySQL表空却ibd文件过大的问题及解决方法》本文给大家介绍MySQL表空却ibd文件过大的问题及解决方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考... 目录一、问题背景:表空却 “吃满” 磁盘的怪事二、问题复现:一步步编程还原异常场景1. 准备测试源表与数据

解决Nginx启动报错Job for nginx.service failed because the control process exited with error code问题

《解决Nginx启动报错Jobfornginx.servicefailedbecausethecontrolprocessexitedwitherrorcode问题》Nginx启... 目录一、报错如下二、解决原因三、解决方式总结一、报错如下Job for nginx.service failed bec

SysMain服务可以关吗? 解决SysMain服务导致的高CPU使用率问题

《SysMain服务可以关吗?解决SysMain服务导致的高CPU使用率问题》SysMain服务是超级预读取,该服务会记录您打开应用程序的模式,并预先将它们加载到内存中以节省时间,但它可能占用大量... 在使用电脑的过程中,CPU使用率居高不下是许多用户都遇到过的问题,其中名为SysMain的服务往往是罪魁

MySQ中出现幻读问题的解决过程

《MySQ中出现幻读问题的解决过程》文章解析MySQLInnoDB通过MVCC与间隙锁机制在可重复读隔离级别下解决幻读,确保事务一致性,同时指出性能影响及乐观锁等替代方案,帮助开发者优化数据库应用... 目录一、幻读的准确定义与核心特征幻读 vs 不可重复读二、mysql隔离级别深度解析各隔离级别的实现差异

C++ vector越界问题的完整解决方案

《C++vector越界问题的完整解决方案》在C++开发中,std::vector作为最常用的动态数组容器,其便捷性与性能优势使其成为处理可变长度数据的首选,然而,数组越界访问始终是威胁程序稳定性的... 目录引言一、vector越界的底层原理与危害1.1 越界访问的本质原因1.2 越界访问的实际危害二、基