双数组字典树DoubleArrayTrie

2023-10-12 22:40

本文主要是介绍双数组字典树DoubleArrayTrie,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

        双数组Tire树是Tire树的存储结构上升级版。

       在查询方面,双数组Tire树拥有Tire树的所有优点,而且刻服了Tire树浪费空间的不足。在插入和删除的时,往往需要对双数组结构进行全局调整,灵活性能较差。如果核心词典已经预先建立好并且有序的,并且不会添加或删除新词,那么这个缺点是可以忽略的。

标准Trie

     向一棵树中插入“清华”、“清华大学”、“清新”、“中华”、“华人”,形成trie.

双数组结构

       设例树的字符编码表为:[清-1,华-2,大-3,学-4,新-5,中-6,人-7](也可以用默认的统一字符编码)

如图所示:

               Position:数据下标,position = 0的时间为root

               Base Array:转移基数数组,ROOT节点为1(可自定义),清的position位置确定为 base[0] + 1(清的编码)                     

                                  如何表示叶子节点?转移基数统一设置设为-1 * base[n], n为叶子节点的position

            Check Array: 较验数组。check数组记录的提这个字的父亲节点的下标,例【清】其 check[2] = 0 指向ROOT

           如果我们要在例树中确认外部的一个字符串“清中”是否是一个词,按照 Trie 树的查找规则,首先要查找“清”这个字,我们从根节点出发,获得|base[1]|+code(“清”)=3,然后转移到“清”节点,确认清在数组中存在,我们继续查找“中”,通过|base[3]|+code(“中”)=9获得位置9,字符串此时查询完毕,根据位置9的转移基数base[9]=-2确定该词在此终结,从而认为字符串“清中”是一个词。而这显然是错误的!所以加了check数组,发现check[9]=3指向“华”。

数组的构建

           1.首先将五个词中的首字"清"、“中”、“华”写入数组之中,写入的位置由base[1]+code(字符)确定,每个位置的转移基数(base[i])等于上一个状态的转移基数(此例也即base[1]),这个过程未遇到冲突,最终结果见下图:

            

         2.然后依次处理每个词的第二个字,首先需要整理相同前缀词(“清华”,“清新”)(“中华”),(“华人”),程序先从根节点出发,通过base[1]+code(“清”)=2找到“清”节点,然后以此计算“华”节点应写入的位置,通过计算base[2]+code(“华”)=3寻找到位置 3,却发现位置3已有值;将base[2] + 1 = 2.再通过计算base[2]+code(“华”)=4,base[2]+code(“新”) = 7,base[7] 又发现有值;base[2] + 1 =3,再通过计算base[2]+code(“华”)=5,base[2]+code(“新”) = 8,成功。 base[5]=base[8]=base[2]=3.(“中华”),(“华人”) 简单。注: 上述的 base[2] 表示 |base[s]| (因为可能是叶子结点,上面忘记写绝对值)

simple代码

public class DoubleArrayTrie {String[] keys;// 字符集int[] base;// 转移数组int[] check;// 较验数组private static class Node {private int code;// 字符编码private int s;// 父字符位置@Overridepublic boolean equals(Object o) {if (this == o)return true;if (o == null || getClass() != o.getClass())return false;Node node = (Node) o;if (code != node.code)return false;return s == node.s;}@Overridepublic int hashCode() {int result = code;result = 31 * result + s;return result;}}public void build(List<String> list) {// 给所有字符定编码this.keys = list.stream().map(word -> word.split("")).flatMap(Arrays::stream).distinct().sorted().collect(Collectors.toList()).toArray(new String[0]);base = new int[3 * keys.length];check = new int[3 * keys.length];String[] dir = list.toArray(new String[0]);// 设置rootbase[0] = 1;for (int i = 0; i < check.length ; i++) {check[i] = -1;}// 词的深度int depth = 1;while (!list.isEmpty()) {// 根据相同前缀分组Map<Integer, List<Node>> map = new HashMap<>();for (int i = 0; i < list.size();) {String word = list.get(i);String pre = word.substring(0, depth - 1);String k = word.substring(depth - 1, depth);Node n = new Node();n.code = findIndex(k);n.s = depth == 1 ? 0 : indexOf(pre);if (depth == word.length()) {list.remove(i);} else {i++;}List<Node> siblings = map.getOrDefault(n.s, new ArrayList<>());if(siblings.contains(n)){continue;}siblings.add(n);map.put(n.s, siblings);}map.forEach((s, siblings) -> {int offset = 0;for (int i = 0; i < siblings.size(); i++) {Node node = siblings.get(i);int c = node.code;int t = base[s] + offset + c;// 发现在节点已有值则偏移+1if (check[t] != -1) {offset++;i = -1;}}base[s] = base[s] + offset;for (Node node : siblings) {int c = node.code;int t = base[s] + c;// 给上父结点check[t] = s;// 给拿上一个节点偏移量base[t] = base[s];}});depth++;}// 发现字节点,置为负数for (String aDir : dir) {int s = indexOf(aDir);base[s] = -1 * base[s];}}// 找询字符编码private int findIndex(String key) {for (int i = 0; i < keys.length; i++) {if (keys[i].equals(key))return i + 1;}throw new RuntimeException("找不到[" + key + "]");}// 定位前缀结点positionprivate int indexOf(String pre) {int s = 0;String[] ss = pre.split("");for (int i = 0; i < ss.length; i++) {String word = ss[i];int c = findIndex(word);int t = (base[s] < 0 ? -1 * base[s] : base[s]) + c;s = t;}return s;}public boolean get(String key) {int s = 0;String[] ss = key.split("");for (int i = 0; i < ss.length; i++) {String word = ss[i];int c = findIndex(word);int t = (base[s] < 0 ? -1 * base[s] : base[s]) + c;if (t >= base.length)return false;if (i == ss.length - 1 && check[t] == s) {return true;}s = t;}return false;}public static void main(String[] args) {DoubleArrayTrie adt = new DoubleArrayTrie();List<String> list = Stream.of(new String[]{"hers", "his", "she", "he"}).collect(Collectors.toList());// 构建DoubleArrayTrieadt.build(list);System.out.println(adt.get("hers"));System.out.println(adt.get("hr"));}
}

双数组Tire树相对Tire树。减少了查询过程的中比较。相当于对每单词进行hashcode标记
 

参考文献

      小白详解 Trie 树

这篇关于双数组字典树DoubleArrayTrie的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/198925

相关文章

MySQL查询JSON数组字段包含特定字符串的方法

《MySQL查询JSON数组字段包含特定字符串的方法》在MySQL数据库中,当某个字段存储的是JSON数组,需要查询数组中包含特定字符串的记录时传统的LIKE语句无法直接使用,下面小编就为大家介绍两种... 目录问题背景解决方案对比1. 精确匹配方案(推荐)2. 模糊匹配方案参数化查询示例使用场景建议性能优

关于集合与数组转换实现方法

《关于集合与数组转换实现方法》:本文主要介绍关于集合与数组转换实现方法,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、Arrays.asList()1.1、方法作用1.2、内部实现1.3、修改元素的影响1.4、注意事项2、list.toArray()2.1、方

python3如何找到字典的下标index、获取list中指定元素的位置索引

《python3如何找到字典的下标index、获取list中指定元素的位置索引》:本文主要介绍python3如何找到字典的下标index、获取list中指定元素的位置索引问题,具有很好的参考价值,... 目录enumerate()找到字典的下标 index获取list中指定元素的位置索引总结enumerat

MySQL JSON 查询中的对象与数组技巧及查询示例

《MySQLJSON查询中的对象与数组技巧及查询示例》MySQL中JSON对象和JSON数组查询的详细介绍及带有WHERE条件的查询示例,本文给大家介绍的非常详细,mysqljson查询示例相关知... 目录jsON 对象查询1. JSON_CONTAINS2. JSON_EXTRACT3. JSON_TA

JAVA数组中五种常见排序方法整理汇总

《JAVA数组中五种常见排序方法整理汇总》本文给大家分享五种常用的Java数组排序方法整理,每种方法结合示例代码给大家介绍的非常详细,感兴趣的朋友跟随小编一起看看吧... 目录前言:法一:Arrays.sort()法二:冒泡排序法三:选择排序法四:反转排序法五:直接插入排序前言:几种常用的Java数组排序

Java数组初始化的五种方式

《Java数组初始化的五种方式》数组是Java中最基础且常用的数据结构之一,其初始化方式多样且各具特点,本文详细讲解Java数组初始化的五种方式,分析其适用场景、优劣势对比及注意事项,帮助避免常见陷阱... 目录1. 静态初始化:简洁但固定代码示例核心特点适用场景注意事项2. 动态初始化:灵活但需手动管理代

C++中初始化二维数组的几种常见方法

《C++中初始化二维数组的几种常见方法》本文详细介绍了在C++中初始化二维数组的不同方式,包括静态初始化、循环、全部为零、部分初始化、std::array和std::vector,以及std::vec... 目录1. 静态初始化2. 使用循环初始化3. 全部初始化为零4. 部分初始化5. 使用 std::a

shell编程之函数与数组的使用详解

《shell编程之函数与数组的使用详解》:本文主要介绍shell编程之函数与数组的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录shell函数函数的用法俩个数求和系统资源监控并报警函数函数变量的作用范围函数的参数递归函数shell数组获取数组的长度读取某下的

C++原地删除有序数组重复项的N种方法

《C++原地删除有序数组重复项的N种方法》给定一个排序数组,你需要在原地删除重复出现的元素,使得每个元素只出现一次,返回移除后数组的新长度,不要使用额外的数组空间,你必须在原地修改输入数组并在使用O(... 目录一、问题二、问题分析三、算法实现四、问题变体:最多保留两次五、分析和代码实现5.1、问题分析5.

Python容器类型之列表/字典/元组/集合方式

《Python容器类型之列表/字典/元组/集合方式》:本文主要介绍Python容器类型之列表/字典/元组/集合方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1. 列表(List) - 有序可变序列1.1 基本特性1.2 核心操作1.3 应用场景2. 字典(D