使用堆查找前K个最大值兼谈程序优化(下)

2023-12-12 18:48

本文主要是介绍使用堆查找前K个最大值兼谈程序优化(下),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


         在建立正确性的回归测试之后,继续前进。  首先用性能工具分析下, 发现有点悲剧: 效率又倒退了。去除不必要的系统调用后, Profile分析结果如下:

         

         

          七、 一些小改进

          生成一亿个随机数也比较耗时, 可以看到rand()耗费时间并不多,但creatListInternal 耗费时间却很多, 可以推断, 模运算上耗费了很多时间。可以消除模运算。使用(1+rand()+rand()) * (1+rand()) 来生成随机数, (1-65535)*(1-32768) ,可以随机生成1- 65535*32768 之间的任何数。当然,这只是个简单的算法,会有重复元素。 此外,还可以启用编译器优化选项。

          

          八、 聚焦热点区域, 减少比较次数

          不去优化次要的地方,再次聚焦热点区域。 可以发现,fastFindkthMax 的主要时间几乎都花在 fastMaxHeapify 上。 只要改进 fastMaxHeapify 的比较次数即可。 对于结点有左右孩子结点的大多数情形,原来的实现中,总要进行两次与heapsize的比较; 但事实上只需要进行一次比较, 对相应代码做一些改动, 即可获得一定的提速。代码如下:

if (rch <= heapsize) {if ((*(list+lch)) > temp) {curr_largest = lch;}  if ((*(list+rch)) > (*(list+curr_largest))) {curr_largest = rch;}}else {if (lch <=heapsize && (*(list+lch)) > temp) {curr_largest = lch;}}

          

          

          九、 高速缓存的影响

          在(上篇)中,一位博友提醒说高速缓存也起着重要的影响。 感谢他的提醒! 鉴于自己在这方面掌握不够扎实,暂时留空。

          十、  回到算法, 思路比较

         要提速,还是要寻找更好的算法改进。 有没有更好的算法呢?  本文的算法有点“笨拙”, 先分配N个数,然后对这N个数建最大堆, 最后依次找出K个最大数。另有两种思路如下:

         1.  最小堆。 首先在N个数中选择K个数建立K个元素的最小堆。 接着, for i = K+1 to N : 如果 i 小于最小堆的根元素, 那么直接不做理会; 如果 i 大于最小堆的根元素,那么, 将其替代堆的根元素,并重构最小堆。 其正确性如下: A。 初始状态下, 堆中所有元素都比空元素大; B。 对于每次重构最小堆之后, 堆中的元素总是比被替代出来的所有元素要大;C。 当循环结束后,堆中的元素就比所有不在堆中的元素要大。其效率为 O(K + NlogK) ; 

         2.  分治。 分而治之总是一种有效的策略。 先将N个数分成b 堆, 每堆 N/b 个数。 对于每个堆找出前K个从大到小排序的最大数 b*O(N/b+Klog(N/b)) ;最后, 在这b个堆的已排序的K个最大数(bK)找出前K个最大数(O(b+(K-1)logb))。这种算法对于多处理器、并行执行机器更为有效,其时间为O(N/b+Klog(N/b)+b+(K-1)logb) + C(N), C是通信时间。对于大数据量处理来说, 并行算法是一种非常值得研究的领域。 

          

          

这篇关于使用堆查找前K个最大值兼谈程序优化(下)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/485598

相关文章

使用Redis快速实现共享Session登录的详细步骤

《使用Redis快速实现共享Session登录的详细步骤》在Web开发中,Session通常用于存储用户的会话信息,允许用户在多个页面之间保持登录状态,Redis是一个开源的高性能键值数据库,广泛用于... 目录前言实现原理:步骤:使用Redis实现共享Session登录1. 引入Redis依赖2. 配置R

使用Python的requests库调用API接口的详细步骤

《使用Python的requests库调用API接口的详细步骤》使用Python的requests库调用API接口是开发中最常用的方式之一,它简化了HTTP请求的处理流程,以下是详细步骤和实战示例,涵... 目录一、准备工作:安装 requests 库二、基本调用流程(以 RESTful API 为例)1.

使用Python开发一个Ditto剪贴板数据导出工具

《使用Python开发一个Ditto剪贴板数据导出工具》在日常工作中,我们经常需要处理大量的剪贴板数据,下面将介绍如何使用Python的wxPython库开发一个图形化工具,实现从Ditto数据库中读... 目录前言运行结果项目需求分析技术选型核心功能实现1. Ditto数据库结构分析2. 数据库自动定位3

Python yield与yield from的简单使用方式

《Pythonyield与yieldfrom的简单使用方式》生成器通过yield定义,可在处理I/O时暂停执行并返回部分结果,待其他任务完成后继续,yieldfrom用于将一个生成器的值传递给另一... 目录python yield与yield from的使用代码结构总结Python yield与yield

Go语言使用select监听多个channel的示例详解

《Go语言使用select监听多个channel的示例详解》本文将聚焦Go并发中的一个强力工具,select,这篇文章将通过实际案例学习如何优雅地监听多个Channel,实现多任务处理、超时控制和非阻... 目录一、前言:为什么要使用select二、实战目标三、案例代码:监听两个任务结果和超时四、运行示例五

python使用Akshare与Streamlit实现股票估值分析教程(图文代码)

《python使用Akshare与Streamlit实现股票估值分析教程(图文代码)》入职测试中的一道题,要求:从Akshare下载某一个股票近十年的财务报表包括,资产负债表,利润表,现金流量表,保存... 目录一、前言二、核心知识点梳理1、Akshare数据获取2、Pandas数据处理3、Matplotl

Java使用Thumbnailator库实现图片处理与压缩功能

《Java使用Thumbnailator库实现图片处理与压缩功能》Thumbnailator是高性能Java图像处理库,支持缩放、旋转、水印添加、裁剪及格式转换,提供易用API和性能优化,适合Web应... 目录1. 图片处理库Thumbnailator介绍2. 基本和指定大小图片缩放功能2.1 图片缩放的

Python使用Tenacity一行代码实现自动重试详解

《Python使用Tenacity一行代码实现自动重试详解》tenacity是一个专为Python设计的通用重试库,它的核心理念就是用简单、清晰的方式,为任何可能失败的操作添加重试能力,下面我们就来看... 目录一切始于一个简单的 API 调用Tenacity 入门:一行代码实现优雅重试精细控制:让重试按我

MySQL中EXISTS与IN用法使用与对比分析

《MySQL中EXISTS与IN用法使用与对比分析》在MySQL中,EXISTS和IN都用于子查询中根据另一个查询的结果来过滤主查询的记录,本文将基于工作原理、效率和应用场景进行全面对比... 目录一、基本用法详解1. IN 运算符2. EXISTS 运算符二、EXISTS 与 IN 的选择策略三、性能对比

使用Python构建智能BAT文件生成器的完美解决方案

《使用Python构建智能BAT文件生成器的完美解决方案》这篇文章主要为大家详细介绍了如何使用wxPython构建一个智能的BAT文件生成器,它不仅能够为Python脚本生成启动脚本,还提供了完整的文... 目录引言运行效果图项目背景与需求分析核心需求技术选型核心功能实现1. 数据库设计2. 界面布局设计3