设计方案总结

2024-06-10 20:44
文章标签 总结 设计方案

本文主要是介绍设计方案总结,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2G 内存在 20 亿个整数中找出现次数最多的数

  • 案例分析:
    • 整数占用 4个字节。
    • 整数的范围是 -21亿 ~ 21亿。
    • kv 对需要 8个字节,k 存储整数,v 存储出现次数。
    • 存储 20亿个整数需要 16G内存。
  • 数据存储使用散列表
  • 分治
    • 要将一个大文件拆分成若干个小文件。
      • 同一个数字不能分布在多个文件中
      • 20亿个整数能够均衡分布在多个文件中
      • 通过 hash 运算实现。
        • 因为同一个数字经过运算会得到相同的值,可用于数据分流
        • hash 算法具备随机性 → 将大文件中的数据均衡分布在多个小文件中;siphash → 近似的 key 通过哈希函数会得到反差很大的值。
      • 建议拆分为 16个文件,这样每个文件大体上需要占用 1G内存。
        • 考虑 hash 不均衡的情况。
        • 考虑散列表扩容的情况。
        • 为了优化取余运算,要找一个恰好大于 10 2 n 2^n 2n,即 2 4 2^4 24
          • x % 16 = x & (16 - 1)
    • 分别统计单个文件中的最大值,最终得到整体的最大值。
  • 优化:如果某个数出现次数超过 10亿了,直接返回这个数,无需继续统计。
  • 如果是 40亿个整数 ?
    • 拆分出更多的文件。
    • 出现次数 value 起始值不能为 0,可以为 -20亿。
  • 如果是 80亿个整数 ?
    • 拆分出更多的文件。
    • 出现次数 value 起始值不能为 0,可以为 -20亿。
    • 因为某个数出现次数超过 40亿的时候,无需继续统计。

100 亿个 URL 中重复词汇的 TOP K 问题

  • 题目:一个包含 100 亿条 URL 的大文件,每个 URL 占用 64 个字节,找出重复的 URL
  • 附加:某搜索公司每天需要处理海量搜索词汇,设计一个找出每天热门 Top 100 词汇的可行方法。
  • 解决方案:hash 分流 + 散列表词频统计
  • 询问资源限制:内存、时间、机器。
  • hash 分流:
    • 把大文件拆分为若干个小文件。
    • hash 运算特征:同一个 key 反复 hash 运算总是得到同一个值。
    • hash 算法具备随机性 → 将大文件中的数据均衡分布在多个小文件中。
    • 把大文件分流到多台机器中处理。
  • 时间限制:
    • 使用散列表进行词频统计。
    • 为什么不使用平衡二叉树(红黑树)?
      • 因为不要求有序。
  • Top K 问题:
    • 此时是否使用平衡二叉树来统计 ?
      • 只要求一部分有序,不使用平衡二叉树。
    • 维护一个大小为 K 的最小堆

40 亿个非负整数中找到未出现的数

  • 题目:最多使用 1GB 内存,怎么找到所有未出现过的数。
  • 进阶:内存限制为 10MB,只需找到一个没出现过的数即可。
  • 解题思路:
    • 非负整数范围:0 ~ 42.9亿之间,那么有接近 3亿的数字未出现。
    • 散列表:40亿 * 4B = 16G
    • 位图:大概需要 537MB 空间。
      • unsigned char arr[536870911];
      • x / 8 得到数组索引值,也就是 unsigned char 的一个值 value
        • 因为每个 unsigned char 存储 8位。
      • x % 8 得到具体位,value = value | 1 << bit;
      • 40亿个数字执行前两步后进行整体遍历,如果某一位不为 1,则该数字未出现过。
  • 如果内存限制为 10MB
    • 问题拆分:537 / 10 = 53.7份,至少需要拆分为 54份数据。
    • 为了优化除法运算,找一个恰好大于 54 2 n 2^n 2n,即 2 6 2^6 26
      • 除以 64 可以优化为右移 6 位。
    • 解题思路:
      • 准备一个数组 unsigned int arr[64],每个区间的数字个数为 67108864
      • 将某个数字对 67108864 整除,相当于右移 26位,得到的值肯定在 0 ~ 63 之间。
      • 假设得到的是 xarr[x]++
      • 40亿个数字经过上面运算,找出 arr[i] < 67108864,这样找出 i 区间有未出现的数字。
      • 接着对 i 区间的数字使用位图,找出未出现的数字即可。

这篇关于设计方案总结的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1049217

相关文章

SQL中JOIN操作的条件使用总结与实践

《SQL中JOIN操作的条件使用总结与实践》在SQL查询中,JOIN操作是多表关联的核心工具,本文将从原理,场景和最佳实践三个方面总结JOIN条件的使用规则,希望可以帮助开发者精准控制查询逻辑... 目录一、ON与WHERE的本质区别二、场景化条件使用规则三、最佳实践建议1.优先使用ON条件2.WHERE用

Nginx Location映射规则总结归纳与最佳实践

《NginxLocation映射规则总结归纳与最佳实践》Nginx的location指令是配置请求路由的核心机制,其匹配规则直接影响请求的处理流程,下面给大家介绍NginxLocation映射规则... 目录一、Location匹配规则与优先级1. 匹配模式2. 优先级顺序3. 匹配示例二、Proxy_pa

Android学习总结之Java和kotlin区别超详细分析

《Android学习总结之Java和kotlin区别超详细分析》Java和Kotlin都是用于Android开发的编程语言,它们各自具有独特的特点和优势,:本文主要介绍Android学习总结之Ja... 目录一、空安全机制真题 1:Kotlin 如何解决 Java 的 NullPointerExceptio

MySQL基本查询示例总结

《MySQL基本查询示例总结》:本文主要介绍MySQL基本查询示例总结,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录Create插入替换Retrieve(读取)select(确定列)where条件(确定行)null查询order by语句li

Linux区分SSD和机械硬盘的方法总结

《Linux区分SSD和机械硬盘的方法总结》在Linux系统管理中,了解存储设备的类型和特性是至关重要的,不同的存储介质(如固态硬盘SSD和机械硬盘HDD)在性能、可靠性和适用场景上有着显著差异,本文... 目录一、lsblk 命令简介基本用法二、识别磁盘类型的关键参数:ROTA查询 ROTA 参数ROTA

Qt实现网络数据解析的方法总结

《Qt实现网络数据解析的方法总结》在Qt中解析网络数据通常涉及接收原始字节流,并将其转换为有意义的应用层数据,这篇文章为大家介绍了详细步骤和示例,感兴趣的小伙伴可以了解下... 目录1. 网络数据接收2. 缓冲区管理(处理粘包/拆包)3. 常见数据格式解析3.1 jsON解析3.2 XML解析3.3 自定义

Python实现图片分割的多种方法总结

《Python实现图片分割的多种方法总结》图片分割是图像处理中的一个重要任务,它的目标是将图像划分为多个区域或者对象,本文为大家整理了一些常用的分割方法,大家可以根据需求自行选择... 目录1. 基于传统图像处理的分割方法(1) 使用固定阈值分割图片(2) 自适应阈值分割(3) 使用图像边缘检测分割(4)

Windows Docker端口占用错误及解决方案总结

《WindowsDocker端口占用错误及解决方案总结》在Windows环境下使用Docker容器时,端口占用错误是开发和运维中常见且棘手的问题,本文将深入剖析该问题的成因,介绍如何通过查看端口分配... 目录引言Windows docker 端口占用错误及解决方案汇总端口冲突形成原因解析诊断当前端口情况解

java常见报错及解决方案总结

《java常见报错及解决方案总结》:本文主要介绍Java编程中常见错误类型及示例,包括语法错误、空指针异常、数组下标越界、类型转换异常、文件未找到异常、除以零异常、非法线程操作异常、方法未定义异常... 目录1. 语法错误 (Syntax Errors)示例 1:解决方案:2. 空指针异常 (NullPoi

Java反转字符串的五种方法总结

《Java反转字符串的五种方法总结》:本文主要介绍五种在Java中反转字符串的方法,包括使用StringBuilder的reverse()方法、字符数组、自定义StringBuilder方法、直接... 目录前言方法一:使用StringBuilder的reverse()方法方法二:使用字符数组方法三:使用自