算法导论（七）——跳跃表自组织表，竞争性分析

本文主要是介绍算法导论（七）——跳跃表自组织表，竞争性分析，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

算法导论（七）——跳跃表&自组织表，竞争性分析

1. 背景：

①为了提高有序链表的查找性能，考虑在部分或全部节点上增加额外的指针，以便查找时跳过若干点，不必从左到右连续查看。

方法：

1. 散列表（哈希表）：操作时间提至O(1)，但最坏是O(n)

【应用】文本压缩解压p.260

LZW压缩：把文本映射为数字编码（关键字为字母，键值为对应的代码。在字符串中寻找于字典中一个字符串最相匹配的最长的字符串）

2. 跳跃表：采用随机技术决定链表的哪些节点要增加向前指针，增加多少个指针。平均复杂度O(logn)，最坏O(n)

散列表 VS跳跃表：散列表利用待插数对的关键字，对分配的桶是随机的，复杂度是常数级。而跳跃表用随机的方式决定数对所在的级，而不考虑关键字，复杂度是对数级。就最坏情况而言，眺表的空间需求更大。但是跳表比散列更灵活（如升序操作）。

基本思想是——以空间换时间

②二叉树的弱点：当数据的随机性不够时，会导致其树形结构的不平衡，从而直接影响算法的效率。

跳跃表（Skip List）这种数据结构，在进行查找、插入、删除等操作时的期望时间复杂度均为O(logn),有着近乎替代平衡树的本领，且编程复杂度低。

2.简介：

【定理：带有n个元素的跳跃表，每次的搜索时间为O(lgn)是一个高概率事件。它是基于概率形成的，n越大的时候失败的概率越小】

3.操作

A.   删除：从上级链表搜到之后，就可以直接删除，并向下将所有链表的该结点都删除

B.    插入：把x插入最底层的合适位置，然后需要维护平衡。

a.    保持每段之间的理想距离，如果距离过大，就从中间分割，然后将中点上升一层结点。实行起来有一定难度，因为须实时记录每一段的长度。

b.    采用随机化算法，通过抛硬币决定是否提升它所在的层级，若为正，则提升，然后继续抛，抛至反面则终止。

（添加负无穷，保证每个表是以负无穷开始，即每个链表都可以从最左边开始）

参考：

http://blog.csdn.net/yinlili2010/article/details/39503655

http://blog.csdn.net/lth404391139/article/details/45111689

http://blog.csdn.net/brillianteagle/article/details/52206261

自组织表

自组织表;含有n个元素的表，包括操作：Acess(x),rank(x),reorded(置换相邻元素)

定义两种操作 l n个元素的列表L，访问（可能是查找，也可以是其他操作）元素x的代价与元素在列表中的位置有关（从表头到x的距离）。 l 元素在L中的位置可以通过交换相邻的元素来改变，而这个操作的代价为O(1)。如果考虑用户的访问可能是一系列的，而且一个元素被访问后，再次被访问的概率会增大，因此考虑对一个元素访问后将该元素和其前驱的元素交换（代价为O(1)），从而减少其下次访问的代价。

复杂度分析：平均情况下，最小期望为：把元素按访问的概率从大到小排序。因此记录元素被访问的次数，并按访问次数递减的方式排序元素（访问次数大于前驱的访问次数时，进行交换）。因此对于元素x的操作，代价最多为2*rank(x)，因为访问需要rank(x),交换可能需要rank(x)。思想：前移思想。

应用：

搜索的“流行词”。在一个时期，流行词被搜索的次数会增加，而一旦过了流行期间，其位置可能就被新的流行词替代了。这对于操作序列S的局部反映非常好。对于高速缓存等其他情况下也可能用到。

竞争性分析，

在线算法：每次只发送一个操作请求，要求立马实现。

离线算法：（上帝算法）可以预知整个操作序列

在线算法A是a竞争的：如果存在常数k,对于任意操作s，，即最坏情况下，A的代价是最优离线算法的a倍。

【定理：自组织表的Move To Front算法是4竞争的】

•如果数据用链表表示，则从x位置移动到表头的操作只需要常数，因此可以忽略其代价，这时可以证明相应的MTF则为2竞争的。

•如果表的开始的势不为0，即L0和L0不相等，比如有可能已经运行过一段时间了。这时候L0的最差情况为和L0比是反序的，这样逆序为n个元素的逆序，为O(n^2).这时候Cmtf（S）<=4* Copt(S)+O(n^2)。如果n的规模相对于S的次数变化不是太大，因此如果操作序列S中的操作为很大时，上式中的O(n^2)也是常量级别的，因此也是4竞争的。