外部排序快速入门详解:基本原理，败者树，置换-选择排序，最佳归并树

2024-06-10 11:20

文章标签 最佳入门详解选择快速归并排序外部基本原理置换败者

本文主要是介绍外部排序快速入门详解:基本原理，败者树，置换-选择排序，最佳归并树，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

外部排序
- 1.最基本的外部排序原理
- 2.外部排序的优化
- 2.1 败者树优化方法
- 2.2 置换-选择排序优化方法
- 2.3 最佳归并树

外部排序

为什么要学习外部排序？
答：
在处理数据的过程中，我们需要把磁盘(外存）中存储的数据拿到内存中处理，因为内存处理更快，但是由于内存空间较小，外存空间很大，外存中的数据元素太多，无法一次全部读入内存进行排序。所以，通过外部排序就是实现对于外存存储元素排序的方法。

1.最基本的外部排序原理

假设在外存中，我们有48个记录，按照每三个记录为一块，建立好基本16个分块。
注意：在建立基本的分块之前，外存的每个小分块要先进行内部排序，保证这16个分块内部是有序的。
内存中，有2个输入缓冲区和1个输出缓冲区，采用归并排序的思想，第一次，先从16个分块中拿出两块，分别放入缓冲区1和缓冲区2.然后每次从这两个缓冲区6的开头，选最小的，放入输出缓冲区，然后凑齐3个记录，就回填外存。以此类推，直到把这1个分块，变为8个分块。

第二次开始，本质还是这个过程，但是值得注意的是，我们必须保证输入缓冲区不空，即如果一旦一个缓冲区的元素被拿空了，要立刻用该分块的其它元素补上。
在这里插入图片描述

外部排序时间开销=读写外存的时间+内部排序所需时间+内部归并所需时间

不难得知，采用多路归并可以减少归并趟数。

记结论：
生成初始片段r个，进行k路归并
则趟数S=⌈log_k^r⌉

2.外部排序的优化

2.1 败者树优化方法

败者树用来减少关键字的比较次数。

将各个归并段段开头加入到败者树的叶子结点，然后开始构造败者树，注意，中间结点记录的是，当前胜者是来自哪个归并端，在得到冠军来自3号归并端后，将3号归并段的叶子结点移除，将3号归并段新的结点补上，此时，不需要比较太多次，通过败者树向上比较，就可以得出新的冠军，以此类推。
在这里插入图片描述

效率分析：
对于k路归并，第一次构造败者树需要对比关键字k-1次，
有了败者树，选出最小元素，只需要对比⌈log₂^k⌉

2.2 置换-选择排序优化方法

让归并段更少，即让归并段更长。

初始待排序文件，不断的将当前内存工作区中，大于minmax的最小值，加入归并段中，每加入一个，再从初始待排序文件中补充一个，直到内存工作区中的所有元素都小于minmax，然后开始输出归并段2，更改minmax，重复上述过程。

在这里插入图片描述

在这里插入图片描述

2.3 最佳归并树

对于归并过程进一步优化。

只讲干货：
每个初始归并端对应一个叶子结点，把归并段段块数作为叶子的权值。最好的归并的过程其实就是构造哈夫曼树的过程。
归并树的WPL=归并过程中的磁盘I/O次数

值得注意的是，k叉归并的最佳归并树一定是严格k叉树，所以很可能叶子结点的个数不满足构造严格k叉归并树，这时候需要补充虚段(权值为0的叶子结点，然后将这些权值为0的结点作为最初始的构造结点.

补充虚段的数量有公式：
（初始归并段数量-1)%（k-1）=u
若u=0,则说明不需要添加虚段，否则添加(k-1)-u个虚段。

下图是一个3路归并的最佳归并树。
在这里插入图片描述

这篇关于外部排序快速入门详解:基本原理，败者树，置换-选择排序，最佳归并树的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1048020。 23002807@qq.com

相关文章

MySQL数据库双机热备的配置方法详解

MySQL数据库双机热备的配置方法详解

《MySQL数据库双机热备的配置方法详解》在企业级应用中,数据库的高可用性和数据的安全性是至关重要的,MySQL作为最流行的开源关系型数据库管理系统之一,提供了多种方式来实现高可用性,其中双机热备（M... 目录1. 环境准备1.1 安装mysql1.2 配置MySQL1.2.1 主服务器配置1.2.2 从

阅读更多...

Linux kill正在执行的后台任务 kill进程组使用详解

Linux kill正在执行的后台任务 kill进程组使用详解

《Linuxkill正在执行的后台任务kill进程组使用详解》文章介绍了两个脚本的功能和区别,以及执行这些脚本时遇到的进程管理问题,通过查看进程树、使用`kill`命令和`lsof`命令,分析了子... 目录零. 用到的命令一. 待执行的脚本二. 执行含子进程的脚本，并kill2.1 进程查看2.2 遇到的

阅读更多...

MyBatis常用XML语法详解

MyBatis常用XML语法详解

《MyBatis常用XML语法详解》文章介绍了MyBatis常用XML语法,包括结果映射、查询语句、插入语句、更新语句、删除语句、动态SQL标签以及ehcache.xml文件的使用,感兴趣的朋友跟随小... 目录1、定义结果映射2、查询语句3、插入语句4、更新语句5、删除语句6、动态 SQL 标签7、ehc

阅读更多...

详解SpringBoot+Ehcache使用示例

详解SpringBoot+Ehcache使用示例

《详解SpringBoot+Ehcache使用示例》本文介绍了SpringBoot中配置Ehcache、自定义get/set方式,并实际使用缓存的过程,文中通过示例代码介绍的非常详细,对大家的学习或者... 目录摘要概念内存与磁盘持久化存储：配置灵活性：编码示例引入依赖：配置ehcache.XML文件：配置

阅读更多...

从基础到高级详解Go语言中错误处理的实践指南

从基础到高级详解Go语言中错误处理的实践指南

《从基础到高级详解Go语言中错误处理的实践指南》Go语言采用了一种独特而明确的错误处理哲学,与其他主流编程语言形成鲜明对比,本文将为大家详细介绍Go语言中错误处理详细方法,希望对大家有所帮助... 目录1 Go 错误处理哲学与核心机制1.1 错误接口设计1.2 错误与异常的区别2 错误创建与检查2.1 基础

阅读更多...

k8s按需创建PV和使用PVC详解

k8s按需创建PV和使用PVC详解

《k8s按需创建PV和使用PVC详解》Kubernetes中,PV和PVC用于管理持久存储,StorageClass实现动态PV分配,PVC声明存储需求并绑定PV,通过kubectl验证状态,注意回收... 目录1.按需创建 PV（使用 StorageClass）创建 StorageClass2.创建 PV

阅读更多...

Python版本信息获取方法详解与实战

Python版本信息获取方法详解与实战

《Python版本信息获取方法详解与实战》在Python开发中,获取Python版本号是调试、兼容性检查和版本控制的重要基础操作,本文详细介绍了如何使用sys和platform模块获取Python的主... 目录1. python版本号获取基础2. 使用sys模块获取版本信息2.1 sys模块概述2.1.1

阅读更多...

一文详解Python如何开发游戏

一文详解Python如何开发游戏

《一文详解Python如何开发游戏》Python是一种非常流行的编程语言,也可以用来开发游戏模组,：本文主要介绍Python如何开发游戏的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下... 目录一、python简介二、Python 开发 2D 游戏的优劣势优势缺点三、Python 开发 3D

阅读更多...

Redis 基本数据类型和使用详解

Redis 基本数据类型和使用详解

《Redis基本数据类型和使用详解》String是Redis最基本的数据类型,一个键对应一个值,它的功能十分强大,可以存储字符串、整数、浮点数等多种数据格式,本文给大家介绍Redis基本数据类型和... 目录一、Redis 入门介绍二、Redis 的五大基本数据类型2.1 String 类型2.2 Hash

阅读更多...

Java中的.close()举例详解

Java中的.close()举例详解

《Java中的.close()举例详解》.close()方法只适用于通过window.open()打开的弹出窗口,对于浏览器的主窗口,如果没有得到用户允许是不能关闭的,：本文主要介绍Java中的.... 目录当你遇到以下三种情况时，一定要记得使用 .close()：用法作用举例如何判断代码中的 input

阅读更多...