HashMap 计算 Hash 值的扰动函数

2023-10-08 04:40

本文主要是介绍HashMap 计算 Hash 值的扰动函数,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

微信公众号:运维开发故事,作者:老郑

计算过程


以下代码叫做 “扰动函数

//java 8 中的散列值优化函数static final int hash(Object key) {    int h;    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);}

理论上 hash 散列是一个 int 值,如果直接拿出来作为下标访问 hashmap 的话,考虑到二进制 32 位,取值范围在**-2147483648 ~ 2147483647**。大概有 40 亿个 key , 只要哈希函数映射比较均匀松散,一般很难出现碰撞。

一个客观的问题:要存下 40 亿长度的数组,服务器内存是不能放下的。通常咱们 HashMap 的默认长度为 16 。所以这个 hashCode , (key.hashCode ) 是不能直接来使用的。使用之前先做对数组长度的与运算,得到的值才能用来访问数组下标。

代码如下:

// n = hashmap 的长度p = tab[i = (n - 1) & hash])

这里为什么要使用 n -1 ,来进行与运算,这里详单与是一个”低位掩码”, 以默认长度 16 为例子。和某个数进行与运算,结果的大小是 < 16 的。如下所示:

    10000000 00100000 00001001&   00000000 00000000 00001111------------------------------    00000000 00000000 00001001  // 高位全部归 0, 只保留后四位

这个时候会有一个问题,如果本身的散列值分布松散,只要是取后面几位的话,碰撞也会非常严重。还有如果散列本身做得不好的话,分布上成等差数列的漏洞,可能出现最后几位出现规律性的重复。

这个时候“扰动函数”的价值就体现出来了。如下所示:

图片

在 hash 函数中有这样的一段代码:(h = key.hashCode()) ^ (h >>> 16) 右位移 16 位, 正好是32bit 的一半,与自己的高半区做成异或,就是为了**混合原始的哈希码的高位和低位,以此来加大低位的随机性。**并且混合后的低位掺杂了高位的部分特征,这样高位的信息变相保存下来。其实按照开发经验来说绝大多数情况使用的时候 HashMap 的长度不会超过 1000,所以提升低位的随机性可以提升可以减少 hash 冲突,提升程序性能。

如果感兴趣的小伙伴可以浏览下一下 Peter Lawlay 的专栏《An introduction to optimising a hashing strategy》的一个实验:他随机选取了 352 个字符串,在散列值完全没有冲突的前提下,对低位做掩码,取数组下标。

图片

结果显示, 当 hashmap 的数组长度为 512 的时候,也就是采用低位掩码取低 9 位的时候,在没有扰动函数的情况下,发生了 103 次碰撞,接近 30%。而在使用扰动函数之后只有 92 次碰撞。碰撞减少了将近10%。说明扰动函数确实有功效的。

但是明显 Java 8 觉得扰动做一次就够用了,做 4 次的话,可能边际效用也不大, 为了效率考虑就改成了一次。

代码演示‍


import java.lang.reflect.Field;import java.util.HashMap;/** * HashMap 计算 hashKey * <p> * 演示:扰动函数 * * @see HashMap#hash(Object) */public class HashKeyTest {    public static void main(String[] args) throws NoSuchFieldException, IllegalAccessException {        HashMap<String, String> map = new HashMap<>();        String k = "王羲之";        String v = "大书法家";        map.put(k, v);        Field field = map.getClass().getDeclaredField("table");        field.setAccessible(Boolean.TRUE);        Object[] nodes = (Object[]) field.get(map);        int h = k.hashCode();        System.out.println("  h=" + h);        System.out.println();        // 调用 hashCode 结果        System.out.println("  h=hashCode()    " + num0x(h) + "  调用 hashCode");        // 无符号右移 16        System.out.println("  h>>>16          " + num0x(h >>> 16));        System.out.println("--------------------------------------------------");        // 计算 hash        System.out.println("  hash=h^(h>>>16) " + num0x(h ^ (h >>> 16)) + "  计算 hash");        System.out.println("--------------------------------------------------");        // 计算下标        System.out.println("  (n-1)&hash      " + num0x(15 & (h ^ (h >>> 16))) + "  计算下标");        System.out.println();        int idx = (15 & (h ^ (h >>> 16)));        // 输出下标        System.out.println("  下标: " + idx);        // 在下标中去获取数据        System.out.println("  查询结果:" + nodes[idx]);    }    /**     * 输入 int 转换为 二进制字符串     *     * @param num 数字     * @return 二进制字符串     */    static String num0x(int num) {        String num0x = "";        for (int i = 31; i >= 0; i--) {            num0x += (num & 1 << i) == 0 ? "0" : "1";        }        return num0x;    }}

运行结果如下:

图片

参考资料:https://www.zhihu.com/question/20733617

最后,求关注。如果你还想看更多优质原创文章,欢迎关注我们的公众号「运维开发故事」。


我是 老郑,《运维开发故事》公众号团队中的一员,某网 Java 程序员,这里不仅有硬核的技术干货,还有我们对技术的思考和感悟,欢迎关注我们的公众号,期待和你一起成长!

这篇关于HashMap 计算 Hash 值的扰动函数的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/162759

相关文章

Java HashMap的底层实现原理深度解析

《JavaHashMap的底层实现原理深度解析》HashMap基于数组+链表+红黑树结构,通过哈希算法和扩容机制优化性能,负载因子与树化阈值平衡效率,是Java开发必备的高效数据结构,本文给大家介绍... 目录一、概述:HashMap的宏观结构二、核心数据结构解析1. 数组(桶数组)2. 链表节点(Node

Python函数作用域与闭包举例深度解析

《Python函数作用域与闭包举例深度解析》Python函数的作用域规则和闭包是编程中的关键概念,它们决定了变量的访问和生命周期,:本文主要介绍Python函数作用域与闭包的相关资料,文中通过代码... 目录1. 基础作用域访问示例1:访问全局变量示例2:访问外层函数变量2. 闭包基础示例3:简单闭包示例4

Redis中Hash从使用过程到原理说明

《Redis中Hash从使用过程到原理说明》RedisHash结构用于存储字段-值对,适合对象数据,支持HSET、HGET等命令,采用ziplist或hashtable编码,通过渐进式rehash优化... 目录一、开篇:Hash就像超市的货架二、Hash的基本使用1. 常用命令示例2. Java操作示例三

Python中isinstance()函数原理解释及详细用法示例

《Python中isinstance()函数原理解释及详细用法示例》isinstance()是Python内置的一个非常有用的函数,用于检查一个对象是否属于指定的类型或类型元组中的某一个类型,它是Py... 目录python中isinstance()函数原理解释及详细用法指南一、isinstance()函数

python中的高阶函数示例详解

《python中的高阶函数示例详解》在Python中,高阶函数是指接受函数作为参数或返回函数作为结果的函数,下面:本文主要介绍python中高阶函数的相关资料,文中通过代码介绍的非常详细,需要的朋... 目录1.定义2.map函数3.filter函数4.reduce函数5.sorted函数6.自定义高阶函数

Python中的sort方法、sorted函数与lambda表达式及用法详解

《Python中的sort方法、sorted函数与lambda表达式及用法详解》文章对比了Python中list.sort()与sorted()函数的区别,指出sort()原地排序返回None,sor... 目录1. sort()方法1.1 sort()方法1.2 基本语法和参数A. reverse参数B.

Python函数的基本用法、返回值特性、全局变量修改及异常处理技巧

《Python函数的基本用法、返回值特性、全局变量修改及异常处理技巧》本文将通过实际代码示例,深入讲解Python函数的基本用法、返回值特性、全局变量修改以及异常处理技巧,感兴趣的朋友跟随小编一起看看... 目录一、python函数定义与调用1.1 基本函数定义1.2 函数调用二、函数返回值详解2.1 有返

Python Excel 通用筛选函数的实现

《PythonExcel通用筛选函数的实现》本文主要介绍了PythonExcel通用筛选函数的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着... 目录案例目的示例数据假定数据来源是字典优化:通用CSV数据处理函数使用说明使用示例注意事项案例目的第一

C++统计函数执行时间的最佳实践

《C++统计函数执行时间的最佳实践》在软件开发过程中,性能分析是优化程序的重要环节,了解函数的执行时间分布对于识别性能瓶颈至关重要,本文将分享一个C++函数执行时间统计工具,希望对大家有所帮助... 目录前言工具特性核心设计1. 数据结构设计2. 单例模式管理器3. RAII自动计时使用方法基本用法高级用法

Python实现精确小数计算的完全指南

《Python实现精确小数计算的完全指南》在金融计算、科学实验和工程领域,浮点数精度问题一直是开发者面临的重大挑战,本文将深入解析Python精确小数计算技术体系,感兴趣的小伙伴可以了解一下... 目录引言:小数精度问题的核心挑战一、浮点数精度问题分析1.1 浮点数精度陷阱1.2 浮点数误差来源二、基础解决