编程珠玑第12章(取样问题)学习笔记

2023-11-23 05:30

本文主要是介绍编程珠玑第12章(取样问题)学习笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

编程珠玑第12章(取样问题)学习笔记

――2013.01.17(By:Neicole)

零。大纲

1. 问题描述

2. 问题改进

3. 第一种方案――使用概率计算

4. 第二种方案――逐个随机插入

5. 第三种方案――内部乱序抽取

6. 我的收益

 

一。问题描述

 1. 名称:随机取样任务

 2. 输入:选区名列表,整数m

 3. 输出:随机选择的m选区名列表

 PS: 1. 选区名常有几百个; 2.选区名为不超过12字符的字符串; 3. m常在20~40

 

二。问题改进

PS: 程序最终结果用上的输入数据只是部分(样品),若将全部输入放入内存再进行计算后取出结果,很可能会导致浪费掉大量的时间空间。

题目修改:

输入:mn,使 0 < m < n ( m, n均为整数)

输出:m随机整数的有序列表。(随机整数不允许重复)

 

三。第一种方案――使用概率计算

1. 伪代码

设:bigrand()能返回一个远大于n的函数

randint(i, j)能返回一个i...j范围内均匀选择的随机整数)

代码:

select = m
remaining = n
for i = [0, n)if (bigrand() % remaining) < selectprint iselect—remaining--

 

 2.我的错误思考――错解本题

  初接触这伪代码,我想了很久,第一反应是,在伪代码中,n是数值大小,m(虽然在题意看来是数量,不过从程序看来)也是数值大小,而bigrand()也是数值大小,它们的大小是包含关系,如果按这样理解的话,如下图:

再套进这个算法,其中有一句 if (bigrand() % remaining) < select ,是不是就意味着我选择的数的大小都是得小于select这个数值的呢?如果是这样,存在很大问题,[m, n)数无法取出,达不到题目从n里面取m随机数的要求。

  那么,现在问题是出在哪呢?

 

3. 解说――正解

  没错,select是在变小,但是,我们不可以忽略的一点是,结果输出的不是select而是变量i,问题的根本是if真正判断的是什么。观察代码时,我们可以将它们的几个变量同时观察,看它们间是否有联系。设m=2, n=5,那么,假设我们进入了伪代码中的循环语句,变量的变化如下所示:

  这个算法的核心部分就是for里面的if语句,观察可知,进入循环条件,每过一轮循环,i的值就会加1,而select值需要视情况而定,如果bigrand()%remaining的数值符合if条件,select的数值就会加1,否则不变。至于remaing数值随着i的增大而减小,这是碰巧吗?三个数值间的联系是什么?我们可以再看下图:

假设,我们是要将结果放入到m1m2两个圈圈中,初始状态时,m1m2都为emptyremaining5,以后仍可能输出的i值为01234五个;第1轮循环结束,可能输出的值剩下4个,而这也与remaing的值一样为4,此时,以后仍可能输出的i值为1234四个,而在刚刚的第1循环,如果符合了循环内的if(bigrand() % remaining) < select条件,m2m1会装入数值0(也就是说输出了i);就这样进入一轮的循环,可以知道的是,remaining就是剩下还没有抽取的数的个数,每一轮循环,i会增大1,可以理解为我们随机选数的时候是从小到大计算数值是否符合条件,我们回顾原题,需要找出“有序”,“不重复”的随机数,这里的“随机”,我们可以从小到大筛选的原因是:我们是否进入的if条件,是一个“随机”得出的结果,而这个“随机”所关联的是一个“概率”,我们从概率的角度去思考这个问题,每个抽出的结果都能达到相同的“概率”时,即能达到“随机”。注意观察还没进入第1轮循环时,我们可取的数有5个,变量select(即图中的m1m2的数目一共)为2,是否进入循环,我们就看(逻辑上)是否抽中0,而抽中随机数0(放入结果m1m2)的概率为2/5,也就是select/k=m1/k+m2/k,那么我们如何能保证这个2/5呢?回看代码中的if (bigrand() % remaining) < select,已知bigrand()取出的是随机数,该随机数取模5,即bigrand()%remaining有可能的结果是0, 1, 2, 3, 4,五个结果出现的概率是均等的,再满足小于select=2的有01,也就是说,从这些均等的结果中,有1/5(bingrand()%remaining=0)概率(可以放进m1)加上1/5(bingrand()%remaining=1)概率(可以放进m2),共2/5概率可以进入if条件执行if条件内的语句(放进m1m2成为输出的结果),这样就保证了有2/5的概率可以取数值0作为最终结果,依此类推即可用均等的概率得出m1m2 的值,输出结果,达到“随机”,“有序”的效果。

 

四。第二种方案――逐个随机插入

  书中所讲,这思路来源于一个学生,他建议“复印选区列表,用切纸机将副本切成一个个含有选区名的纸片,然后将这些纸片放入一个纸袋中并摇乱,再从中抽取需要数目的纸片。”这是一个生活中可以用上的方法,我们常说,计算机来源于生活,果然如此,这也体现了书中所讲的“打破概念壁垒”的主题。

1. 伪代码

  initialize set S to emptysize = 0while size < m dot = bigrand() % nif t is not in Sinsert t into Ssize++print the elements of S in sorted order


2.问题联想与简要思路提要

 这代码看起来很简单,我将其理解为“取样放回再随机抽取”,也就是从一个集合中随机取个数,每次取完后再将这个数放回集合中,如果下次取出的是同一个数则忽略这个结果,继续取数,直到取得满足条件的样品数目为此。每次都是从总数中取个数,那么每个数被抽中的概率必然是均等的。满足题目“随机”的这个条件。

 我联想到的是我以前高中常做的一道题,脑海中很容易就能反映出这个场景“有一个布袋,里面装了n [0, 10)标有号码白球,每次从袋子里面取出1个球,每次取球后将球放回,问从布袋里面取出号码xx的概率是多少?”虽然跟这题目所问的有些许不同,但是这场景实在是很像。解决题目时,联系生活。

 

五。第三种方案――内部乱序抽取

1.伪代码

 for i = [0, n)swap(i, randint(i, n-1) )   // randint(i, j)从i...j范围内均匀选择的随机整数的函数


 

2.问题联想与简要思路提要

  思路很简单,将集合内部的顺序打乱,然后再从这打乱中的集合取出m个数,取出来再进行排序,得出的即是结果。

 这种随机取样的方法让我想到了六合彩,我们是直接从集合内部搞出m个数即为随机抽样了,然后想满足题目条件的话就再进行排序就可以。

 

六。我的收益

  这次对“取样问题”进行了探讨,刚开始没有想到可以将问题优化为从数值集合中取样的问题,更没有想到可以由“概率”的这个角度去思考这个“随机”的问题,又从书中解决问题的时候联想到生活现象,书本实在能引发我的思考,解决问题时,可以先试试想想本身的问题有没有可替换的方案,再可以想想方案还可以有哪些,思考方案的时候,还可以打破条条框框的概念,尝试用另一种思维去思考问题。

 

这篇关于编程珠玑第12章(取样问题)学习笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:https://blog.csdn.net/neicole/article/details/8518602
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/415689

相关文章

解决Java异常报错:java.nio.channels.UnresolvedAddressException问题

《解决Java异常报错:java.nio.channels.UnresolvedAddressException问题》:本文主要介绍解决Java异常报错:java.nio.channels.Unr... 目录异常含义可能出现的场景1. 错误的 IP 地址格式2. DNS 解析失败3. 未初始化的地址对象解决

springboot+vue项目怎么解决跨域问题详解

《springboot+vue项目怎么解决跨域问题详解》:本文主要介绍springboot+vue项目怎么解决跨域问题的相关资料,包括前端代理、后端全局配置CORS、注解配置和Nginx反向代理,... 目录1. 前端代理(开发环境推荐)2. 后端全局配置 CORS(生产环境推荐)3. 后端注解配置(按接口

使用雪花算法产生id导致前端精度缺失问题解决方案

《使用雪花算法产生id导致前端精度缺失问题解决方案》雪花算法由Twitter提出,设计目的是生成唯一的、递增的ID,下面:本文主要介绍使用雪花算法产生id导致前端精度缺失问题的解决方案,文中通过代... 目录一、问题根源二、解决方案1. 全局配置Jackson序列化规则2. 实体类必须使用Long封装类3.

重新对Java的类加载器的学习方式

《重新对Java的类加载器的学习方式》:本文主要介绍重新对Java的类加载器的学习方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、介绍1.1、简介1.2、符号引用和直接引用1、符号引用2、直接引用3、符号转直接的过程2、加载流程3、类加载的分类3.1、显示

Idea插件MybatisX失效的问题解决

《Idea插件MybatisX失效的问题解决》:本文主要介绍Idea插件MybatisX失效的问题解决,详细的介绍了4种问题的解决方法,具有一定的参考价值,感兴趣的可以了解一下... 目录一、重启idea或者卸载重装MyBATis插件(无需多言)二、检查.XML文件与.Java(该文件后缀Idea可能会隐藏

Nginx 访问 /root/下 403 Forbidden问题解决

《Nginx访问/root/下403Forbidden问题解决》在使用Nginx作为Web服务器时,可能会遇到403Forbidden错误,文中通过示例代码介绍的非常详细,对大家的学习或者工作... 目录解决 Nginx 访问 /root/test/1.html 403 Forbidden 问题问题复现Ng

Python的pip在命令行无法使用问题的解决方法

《Python的pip在命令行无法使用问题的解决方法》PIP是通用的Python包管理工具,提供了对Python包的查找、下载、安装、卸载、更新等功能,安装诸如Pygame、Pymysql等Pyt... 目录前言一. pip是什么?二. 为什么无法使用?1. 当我们在命令行输入指令并回车时,一般主要是出现以

Nginx部署React项目时重定向循环问题的解决方案

《Nginx部署React项目时重定向循环问题的解决方案》Nginx在处理React项目请求时出现重定向循环,通常是由于`try_files`配置错误或`root`路径配置不当导致的,本文给大家详细介... 目录问题原因1. try_files 配置错误2. root 路径错误解决方法1. 检查 try_f

Python解决雅努斯问题实例方案详解

《Python解决雅努斯问题实例方案详解》:本文主要介绍Python解决雅努斯问题实例方案,雅努斯问题是指AI生成的3D对象在不同视角下出现不一致性的问题,即从不同角度看物体时,物体的形状会出现不... 目录一、雅努斯简介二、雅努斯问题三、示例代码四、解决方案五、完整解决方案一、雅努斯简介雅努斯(Janu

MySQL索引失效问题及解决方案

《MySQL索引失效问题及解决方案》:本文主要介绍MySQL索引失效问题及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql索引失效一、概要二、常见的导致MpythonySQL索引失效的原因三、如何诊断MySQL索引失效四、如何解决MySQL索引失