面试题80:海量数据等概论抽样(蓄水池问题)

2024-04-06 17:38

本文主要是介绍面试题80:海量数据等概论抽样(蓄水池问题),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

题目:

从N个元素中随机抽取K个元素,N的个数不确定,要求保证每个数字被抽中的概率相等。

解读:

这种应用的场景一般是数据流的情况下,由于数据只能被读取一次,而且数据量很大,并不能全部保存,因此数据量N是无法在抽样开始时确定的;但又要保证概率相等。

解决:

解决方案就是蓄水池抽样。主要思想就是保持一个集合(这个集合最终的数字就是被抽中的数字)。依次遍历所有数据的时候以一定的概率替换掉这个蓄水池中的数字。

其伪代码为:

Init : a reservoir with the size: k   //初始化蓄水池为前K个数for    i= k+1 to N  M=random(1, i);if( M < k)SWAP the Mth value and ith valueend for
程序的开始就是把前K个元素都放到水库中,然后对之后的第i个元素,以k/i的概率替换掉这个水库中的某一个元素。

证明概率相等:

首先要明白,如果最终K个元素确定,则这K个元素出现的概率都是K/N。

下面来证明当读到第i个元素时,水库中每个元素出现的概率是K/i。

1)初始情况:出现在水库中的K个元素出现的概率都是1.

2)第一步:处理第K+1个元素的情况。分为两种情况:水库中元素都没有被替换;水库中某个元素被第K+1个元素替换掉。

对于情况2:第K+1个元素被选中的概率是K/(K+1),所以这个新元素在水库中出现的概率就一定是K/(K+1)。下面看水库中剩余的元素出现的概率。水库中人一个元素被替换的概率是1/(K+1),那它出现在水库中的概率就是K/(K+1)。可以看出新元素和旧元素出现的概率是相等的。
对于情况1:当元素全部都没有替换掉的时候,每个元素的出现概率肯定是一样的,这很显然。但具体是多少呢?就是1-P(第k+1个元素被选中)=1-1/(k+1)=K/(k+1)。

即i=K+1的时候满足

3)归纳法:重复上面的过程,只要证明第i步到第i+1步,所有元素出现的概率相等即可。

假设第i个元素也满足水库中每个元素出现的概率是K/i,则当第i+1个元素时:
第i+1个元素出现在水池中的概率为K/(i+1),很容易得到水库中其他元素出现的概率也是K/(i+1)。


下面利用上面的方法从1-100之间选出3个数:

#include <iostream>
#include <cstdio>
#include <cstdlib>
#include <ctime>
#include <algorithm>
using namespace std;const int N = 100;
const int poolN = 3;int Random(int min, int max)
{return min + rand() % (max - min + 1);
}void Draw()
{int source[N];int re[poolN];for (int i = 0; i < N; i++) source[i] = i + 1;for (int i = 0; i < poolN; i++) re[i] = source[i];for (int k = poolN; k < N; k++){int temp = Random(0, k-1);if (temp < poolN) swap(re[temp], source[k]);}for (int i = 0; i < poolN; i++)cout << re[i] << " ";cout << endl;
}int main()
{srand((unsigned int)time(NULL));for (int i = 0; i < 100;i++)Draw();return 0;
}
感觉有点问题,能够保证Random(min,max)产生的[min,max]中每个数的概率相等吗?

这篇关于面试题80:海量数据等概论抽样(蓄水池问题)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/880444

相关文章

批量导入txt数据到的redis过程

《批量导入txt数据到的redis过程》用户通过将Redis命令逐行写入txt文件,利用管道模式运行客户端,成功执行批量删除以Product*匹配的Key操作,提高了数据清理效率... 目录批量导入txt数据到Redisjs把redis命令按一条 一行写到txt中管道命令运行redis客户端成功了批量删除k

SpringBoot多环境配置数据读取方式

《SpringBoot多环境配置数据读取方式》SpringBoot通过环境隔离机制,支持properties/yaml/yml多格式配置,结合@Value、Environment和@Configura... 目录一、多环境配置的核心思路二、3种配置文件格式详解2.1 properties格式(传统格式)1.

解决pandas无法读取csv文件数据的问题

《解决pandas无法读取csv文件数据的问题》本文讲述作者用Pandas读取CSV文件时因参数设置不当导致数据错位,通过调整delimiter和on_bad_lines参数最终解决问题,并强调正确参... 目录一、前言二、问题复现1. 问题2. 通过 on_bad_lines=‘warn’ 跳过异常数据3

解决RocketMQ的幂等性问题

《解决RocketMQ的幂等性问题》重复消费因调用链路长、消息发送超时或消费者故障导致,通过生产者消息查询、Redis缓存及消费者唯一主键可以确保幂等性,避免重复处理,本文主要介绍了解决RocketM... 目录造成重复消费的原因解决方法生产者端消费者端代码实现造成重复消费的原因当系统的调用链路比较长的时

深度解析Nginx日志分析与499状态码问题解决

《深度解析Nginx日志分析与499状态码问题解决》在Web服务器运维和性能优化过程中,Nginx日志是排查问题的重要依据,本文将围绕Nginx日志分析、499状态码的成因、排查方法及解决方案展开讨论... 目录前言1. Nginx日志基础1.1 Nginx日志存放位置1.2 Nginx日志格式2. 499

kkFileView启动报错:报错2003端口占用的问题及解决

《kkFileView启动报错:报错2003端口占用的问题及解决》kkFileView启动报错因office组件2003端口未关闭,解决:查杀占用端口的进程,终止Java进程,使用shutdown.s... 目录原因解决总结kkFileViewjavascript启动报错启动office组件失败,请检查of

C#监听txt文档获取新数据方式

《C#监听txt文档获取新数据方式》文章介绍通过监听txt文件获取最新数据,并实现开机自启动、禁用窗口关闭按钮、阻止Ctrl+C中断及防止程序退出等功能,代码整合于主函数中,供参考学习... 目录前言一、监听txt文档增加数据二、其他功能1. 设置开机自启动2. 禁止控制台窗口关闭按钮3. 阻止Ctrl +

java如何实现高并发场景下三级缓存的数据一致性

《java如何实现高并发场景下三级缓存的数据一致性》这篇文章主要为大家详细介绍了java如何实现高并发场景下三级缓存的数据一致性,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 下面代码是一个使用Java和Redisson实现的三级缓存服务,主要功能包括:1.缓存结构:本地缓存:使

SpringBoot 异常处理/自定义格式校验的问题实例详解

《SpringBoot异常处理/自定义格式校验的问题实例详解》文章探讨SpringBoot中自定义注解校验问题,区分参数级与类级约束触发的异常类型,建议通过@RestControllerAdvice... 目录1. 问题简要描述2. 异常触发1) 参数级别约束2) 类级别约束3. 异常处理1) 字段级别约束

在MySQL中实现冷热数据分离的方法及使用场景底层原理解析

《在MySQL中实现冷热数据分离的方法及使用场景底层原理解析》MySQL冷热数据分离通过分表/分区策略、数据归档和索引优化,将频繁访问的热数据与冷数据分开存储,提升查询效率并降低存储成本,适用于高并发... 目录实现冷热数据分离1. 分表策略2. 使用分区表3. 数据归档与迁移在mysql中实现冷热数据分