1 亿个数据取出最大前 100 个有什么方法?

2023-12-10 10:45

本文主要是介绍1 亿个数据取出最大前 100 个有什么方法?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1 亿个数据取出最大前 100 个有什么方法?

大家好,这是一道经常在面试中被遇到的一个问题,我之前面试也是被问到过得,现在一起学习下,下次再被问到就可以轻松地用对。

在计算机科学和数据处理领域,我们经常会遇到需要从海量的数据中找出最大或最小的若干个元素的情况。本文将以 Java 为例,介绍几种从 1 亿个数据中取出最大前 100 个的方法。

方法一:排序后取前 100 个

最直观的方法是先将这 1 亿个数据排序,然后取排序后的前 100 个。在 Java 中,可以使用 Arrays 类的 sort 方法或者 PriorityQueue 类来实现。

  1. 示例:使用 Arrays.sort()
import java.util.Arrays;
public class Main {public static void main(String[] args) {int[] data = generateData(100000000);Arrays.sort(data);int[] top100 = new int[100];System.arraycopy(data, 0, top100, 0, 100);// 输出最大前 100 个数for (int num : top100) {System.out.print(num + " ");}}public static int[] generateData(int size) {int[] data = new int[size];for (int i = 0; i < size; i++) {data[i] = (int) (Math.random() * 100000000);}return data;}
}
  1. 示例:使用 PriorityQueue
import java.util.PriorityQueue;
public class Main {public static void main(String[] args) {int[] data = generateData(100000000);PriorityQueue<Integer> pq = new PriorityQueue<>(100000000, (a, b) -> b - a);for (int num : data) {pq.offer(num);if (pq.size() > 100) {pq.poll();}}int[] top100 = new int[100];while (!pq.isEmpty()) {top100[pq.size() - 1] = pq.poll();}// 输出最大前 100 个数for (int num : top100) {System.out.print(num + " ");}}public static int[] generateData(int size) {int[] data = new int[size];for (int i = 0; i < size; i++) {data[i] = (int) (Math.random() * 100000000);}return data;}
}

优缺点
• 优点:简单易懂,代码实现容易。
• 缺点:时间复杂度较高,对于大数据量来说,排序所需的时间可能会很长。

方法二:使用部分排序算法

部分排序算法(如快速选择算法)可以在不需要完全排序的情况下找到第 k 大的元素。我们可以使用这个算法来找出最大前 100 个元素。

  1. 示例:使用快速选择算法
import java.util.Random;
public class Main {public static void main(String[] args) {int[] data = generateData(100000000);int[] top100 = findTop100(data);// 输出最大前 100 个数for (int num : top100) {System.out.print(num + " ");}}public static int[] findTop100(int[] data) {int[] result = new int[100];int left = 0;int right = data.length - 1;for (int i = 0; i < 100; i++) {int pivot = data[(left + right) / 2];int leftCount = 0;int rightCount = data.length - 1 - i;for (int num : data) {if (num > pivot) {rightCount--;} else {leftCount++;}}if (leftCount > rightCount) {right = (left + right) / 2;} else {left = (left + right) / 2 + 1;}result[i] = pivot;}return result;}public static int[] generateData(int size) {int[] data = new int[size];for (int i = 0; i < size; i++) {data[i] = (int) (Math.random() * 100000000);}return data;}
}

优缺点
• 优点:时间复杂度较低,对于大数据量来说,效率更高。
• 缺点:代码实现相对复杂,需要理解快速选择算法的原理。 以上就是从 1 亿个数据中取出最大前 100 个的几种方法,各有优缺点,可以根据实际情况选择合适的方法。

今天的分享就到这里,如果觉得对你有帮助,感谢点赞、分享、关注一波,你的认可是我创造的最大动力。

更多内容请关注公众号:程序猿漠然,一个分享有趣后端知识的公众号。

这篇关于1 亿个数据取出最大前 100 个有什么方法?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/476884

相关文章

Python安装Pandas库的两种方法

《Python安装Pandas库的两种方法》本文介绍了三种安装PythonPandas库的方法,通过cmd命令行安装并解决版本冲突,手动下载whl文件安装,更换国内镜像源加速下载,最后建议用pipli... 目录方法一:cmd命令行执行pip install pandas方法二:找到pandas下载库,然后

SpringBoot多环境配置数据读取方式

《SpringBoot多环境配置数据读取方式》SpringBoot通过环境隔离机制,支持properties/yaml/yml多格式配置,结合@Value、Environment和@Configura... 目录一、多环境配置的核心思路二、3种配置文件格式详解2.1 properties格式(传统格式)1.

解决pandas无法读取csv文件数据的问题

《解决pandas无法读取csv文件数据的问题》本文讲述作者用Pandas读取CSV文件时因参数设置不当导致数据错位,通过调整delimiter和on_bad_lines参数最终解决问题,并强调正确参... 目录一、前言二、问题复现1. 问题2. 通过 on_bad_lines=‘warn’ 跳过异常数据3

Linux系统中查询JDK安装目录的几种常用方法

《Linux系统中查询JDK安装目录的几种常用方法》:本文主要介绍Linux系统中查询JDK安装目录的几种常用方法,方法分别是通过update-alternatives、Java命令、环境变量及目... 目录方法 1:通过update-alternatives查询(推荐)方法 2:检查所有已安装的 JDK方

SQL Server安装时候没有中文选项的解决方法

《SQLServer安装时候没有中文选项的解决方法》用户安装SQLServer时界面全英文,无中文选项,通过修改安装设置中的国家或地区为中文中国,重启安装程序后界面恢复中文,解决了问题,对SQLSe... 你是不是在安装SQL Server时候发现安装界面和别人不同,并且无论如何都没有中文选项?这个问题也

Java Thread中join方法使用举例详解

《JavaThread中join方法使用举例详解》JavaThread中join()方法主要是让调用改方法的thread完成run方法里面的东西后,在执行join()方法后面的代码,这篇文章主要介绍... 目录前言1.join()方法的定义和作用2.join()方法的三个重载版本3.join()方法的工作原

C#监听txt文档获取新数据方式

《C#监听txt文档获取新数据方式》文章介绍通过监听txt文件获取最新数据,并实现开机自启动、禁用窗口关闭按钮、阻止Ctrl+C中断及防止程序退出等功能,代码整合于主函数中,供参考学习... 目录前言一、监听txt文档增加数据二、其他功能1. 设置开机自启动2. 禁止控制台窗口关闭按钮3. 阻止Ctrl +

java如何实现高并发场景下三级缓存的数据一致性

《java如何实现高并发场景下三级缓存的数据一致性》这篇文章主要为大家详细介绍了java如何实现高并发场景下三级缓存的数据一致性,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 下面代码是一个使用Java和Redisson实现的三级缓存服务,主要功能包括:1.缓存结构:本地缓存:使

在MySQL中实现冷热数据分离的方法及使用场景底层原理解析

《在MySQL中实现冷热数据分离的方法及使用场景底层原理解析》MySQL冷热数据分离通过分表/分区策略、数据归档和索引优化,将频繁访问的热数据与冷数据分开存储,提升查询效率并降低存储成本,适用于高并发... 目录实现冷热数据分离1. 分表策略2. 使用分区表3. 数据归档与迁移在mysql中实现冷热数据分

Spring Boot从main方法到内嵌Tomcat的全过程(自动化流程)

《SpringBoot从main方法到内嵌Tomcat的全过程(自动化流程)》SpringBoot启动始于main方法,创建SpringApplication实例,初始化上下文,准备环境,刷新容器并... 目录1. 入口:main方法2. SpringApplication初始化2.1 构造阶段3. 运行阶