《算法导论》学习笔记Chapter11散列表

本文主要是介绍《算法导论》学习笔记Chapter11散列表，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

散列表最重要的是散列函数的选择，一个好的散列函数应满足简单均匀散列假设特点：每个关键字都被等可能的散列到m个槽位中的任何一个，并与其它关键字已散列到哪个槽位无关。

遗憾的是上述条件很难检测到是否满足，因为很少能知道关键字散列所满足的概率分布，且各关键字可能并不是完全独立的。

实际中，可应用启发式方法构造性能好的散列函数。设计过程中，充分利用关键字分布的有用信息。

“除法散列”是一种较好的方法，此时应避免选择m的某些值，如m不应为2的幂。一个不太接近2的整数幂的素数，常常是m的一个较好的选择。

散列表的冲突解决方法：链接法和开放寻址法。

在一个必须使用DELETE关键字的散列表应用中，更常见的做法是采用链接法来解决冲突。因为，如果采用开放寻址法，那么因为搜索时有DELETE标识干扰，会绕过DELETE，查找事件就不再依赖于装载因子α了。

散列表一个重要的概念就是全域散列函数H。

那么，什么是全域散列函数呢？如何构造全域函数H呢？

全域散列函数是为了解决普通散列函数存在的一个不可避免的缺点而设计的，针对普通散列函数：

拿网易公开课上（http://open.163.com/movie/2010/12/3/A/M6UTT5U0I_M6V2TGI3A.html）charles举的那个例子：如果你和一个竞争对手同时为一家公司做compiler的symbol table, 公司要求你们代码共享，你们做好后公司评判的标准就是你俩互相提供一些测试样例，谁的效率高就买谁的。

然后，普通哈希的缺点就出来了：对任意的hash函数h,总存在一组keys，使得对某个槽i，总可以找到一组键值，让他们都映射到同一个槽里面，这样效率就跟链表差不多了。

解决的思想就是：独立于键值，随机的选择hash 函数。这就跟快排中为避免最差情况时随机化版本差不多。但是选取hash function的全局域是不能乱定的，否则也达不到理想的性能。

知道了全域散列函数的目的，那么如何构建全域散列函数呢？

下面给出全域哈希的定义：

设U是key的全局域，设 H 是哈希函数的有限集合，每一个都是将U映射到{0,1,..,m-1},即table的槽内。如果对所有不等的x,y∈U,有 $|\{h\in \mathcal{H}: h(x)=h(y)|=|\mathcal{H}|/m$ 。