用Java实现搜索引擎布尔运算

2024-06-13 00:32

本文主要是介绍用Java实现搜索引擎布尔运算,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

索引类:


import java.io.ByteArrayInputStream;
import java.io.ByteArrayOutputStream;
import java.io.IOException;
import java.io.ObjectInputStream;
import java.io.ObjectOutputStream;
import java.io.Serializable;
import java.util.BitSet;
import java.util.Collection;
import java.util.HashMap;
import java.util.Map;
import java.util.zip.GZIPInputStream;
import java.util.zip.GZIPOutputStream;

public class Index implements Serializable {
/**
*
*/
private static final long serialVersionUID = 7362753433812661741L;
private Map<String, BitSet> indexMap;

private void writeObject(ObjectOutputStream out) throws IOException {
// 压缩
ByteArrayOutputStream buf = new ByteArrayOutputStream();
ObjectOutputStream objOut = new ObjectOutputStream(new GZIPOutputStream(buf));
objOut.writeObject(indexMap);
objOut.close();
out.writeObject(buf.toByteArray());
}

@SuppressWarnings("unchecked")
private void readObject(ObjectInputStream in) throws IOException, ClassNotFoundException {
byte[] buf = (byte[]) in.readObject();
ObjectInputStream objIn = new ObjectInputStream(new GZIPInputStream(
new ByteArrayInputStream(buf)));
indexMap = (Map<String, BitSet>) objIn.readObject();
objIn.close();
}

public Index(int indexSize) {
int initialCapacity = indexSize * 4 / 3;
indexMap = new HashMap<String, BitSet>(initialCapacity);
}

public Index() {
this(12);
}

public void setId(Collection<String> c, int id) {

for (String key : c) {
BitSet bit = indexMap.get(key);
if (bit == null) {
bit = new BitSet();
indexMap.put(key, bit);
}
bit.set(id);
}
}

public void setId(String[] c, int id) {

for (String key : c) {
BitSet bit = indexMap.get(key);
if (bit == null) {
bit = new BitSet();
indexMap.put(key, bit);
}
bit.set(id);
}
}

public int[] getIdSetWithAnd(String... keys) {
checkKeys(keys);
int n = keys.length;
BitSet[] bits = new BitSet[n];
int i = 0;
for (String key : keys) {
BitSet bit = indexMap.get(key);
if (bit != null) {
bits[i++] = bit;
}
}
if (i == 0)
return null;
BitSet bit = (BitSet) bits[0].clone();
for (int j = 1; j < i; j++) {
bit.and(bits[j]);
}
return getIdSet(bit);
}

public int[] getIdSetWithOr(String... keys) {
checkKeys(keys);
int n = keys.length;
BitSet[] bits = new BitSet[n];
int i = 0;
for (String key : keys) {
BitSet bit = indexMap.get(key);
if (bit != null) {
bits[i++] = bit;
}
}
if (i == 0)
return null;
BitSet bit = (BitSet) bits[0].clone();
for (int j = 1; j < i; j++) {
bit.or(bits[j]);
}
return getIdSet(bit);
}

private static void checkKeys(String... keys) {
if (keys == null)
throw new NullPointerException("keys is null.");
if (keys.length < 2) {
throw new IllegalArgumentException("keys' length is less than 2.");
}
}

public int[] getIdSet(String key) {
BitSet bit = indexMap.get(key);
if (bit == null)
return null;
else {
return getIdSet(bit);
}
}

private int[] getIdSet(BitSet bit) {
int n = bit.size();
int[] ids = new int[n];
int j = 0;
for (int i = 0; i < n; i++) {
if (bit.get(i)) {
ids[j++] = i;
}
}
if (j == n)
return ids;
else {
int[] arr = new int[j];
System.arraycopy(ids, 0, arr, 0, j);
return arr;
}
}
}



小小测试:


import java.io.File;
import java.io.IOException;
import java.util.Arrays;
import java.util.regex.Pattern;

import bluechip.io.SerializeUtils;
import bluechip.io.file.AbstractFileProcessor;
import bluechip.io.file.FileProcessor;

public class IndexTest {

/**
* @param args
*/
public static void main(String[] args) throws Exception {
//统计一下运行时间
long time = System.currentTimeMillis();
File file = new File("d:/index.dat");

Index data = null;
try {
//到从文件读取序列化对象
data = SerializeUtils.readObject(file);
} catch (Exception ex) {
final Index index = new Index(4000);
final Pattern pattern = Pattern.compile("\\s+");//简单的分词
FileProcessor fp = new AbstractFileProcessor(new File("D:/英文版世界名著[下]/罪与罚.txt")) {

@Override
protected void processLine(String line) throws IOException {
String[] words = pattern.split(line);
//一行一条记录
index.setId(words, this.getLineNumber());
}
};

fp.process();
data = index;
//序列化存储到文件
SerializeUtils.writeObject(data, file);
}
//查找存在下列单词的行号
int[] ids = data.getIdSetWithAnd("his", "and", "was", "were", "as", "to");
System.out.println(Arrays.toString(ids));
System.out.println(ids.length);
System.out.println(System.currentTimeMillis() - time);
}

}

这篇关于用Java实现搜索引擎布尔运算的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1055775

相关文章

Java中流式并行操作parallelStream的原理和使用方法

《Java中流式并行操作parallelStream的原理和使用方法》本文详细介绍了Java中的并行流(parallelStream)的原理、正确使用方法以及在实际业务中的应用案例,并指出在使用并行流... 目录Java中流式并行操作parallelStream0. 问题的产生1. 什么是parallelS

C++中unordered_set哈希集合的实现

《C++中unordered_set哈希集合的实现》std::unordered_set是C++标准库中的无序关联容器,基于哈希表实现,具有元素唯一性和无序性特点,本文就来详细的介绍一下unorder... 目录一、概述二、头文件与命名空间三、常用方法与示例1. 构造与析构2. 迭代器与遍历3. 容量相关4

Java中Redisson 的原理深度解析

《Java中Redisson的原理深度解析》Redisson是一个高性能的Redis客户端,它通过将Redis数据结构映射为Java对象和分布式对象,实现了在Java应用中方便地使用Redis,本文... 目录前言一、核心设计理念二、核心架构与通信层1. 基于 Netty 的异步非阻塞通信2. 编解码器三、

C++中悬垂引用(Dangling Reference) 的实现

《C++中悬垂引用(DanglingReference)的实现》C++中的悬垂引用指引用绑定的对象被销毁后引用仍存在的情况,会导致访问无效内存,下面就来详细的介绍一下产生的原因以及如何避免,感兴趣... 目录悬垂引用的产生原因1. 引用绑定到局部变量,变量超出作用域后销毁2. 引用绑定到动态分配的对象,对象

SpringBoot基于注解实现数据库字段回填的完整方案

《SpringBoot基于注解实现数据库字段回填的完整方案》这篇文章主要为大家详细介绍了SpringBoot如何基于注解实现数据库字段回填的相关方法,文中的示例代码讲解详细,感兴趣的小伙伴可以了解... 目录数据库表pom.XMLRelationFieldRelationFieldMapping基础的一些代

一篇文章彻底搞懂macOS如何决定java环境

《一篇文章彻底搞懂macOS如何决定java环境》MacOS作为一个功能强大的操作系统,为开发者提供了丰富的开发工具和框架,下面:本文主要介绍macOS如何决定java环境的相关资料,文中通过代码... 目录方法一:使用 which命令方法二:使用 Java_home工具(Apple 官方推荐)那问题来了,

Java HashMap的底层实现原理深度解析

《JavaHashMap的底层实现原理深度解析》HashMap基于数组+链表+红黑树结构,通过哈希算法和扩容机制优化性能,负载因子与树化阈值平衡效率,是Java开发必备的高效数据结构,本文给大家介绍... 目录一、概述:HashMap的宏观结构二、核心数据结构解析1. 数组(桶数组)2. 链表节点(Node

Java AOP面向切面编程的概念和实现方式

《JavaAOP面向切面编程的概念和实现方式》AOP是面向切面编程,通过动态代理将横切关注点(如日志、事务)与核心业务逻辑分离,提升代码复用性和可维护性,本文给大家介绍JavaAOP面向切面编程的概... 目录一、AOP 是什么?二、AOP 的核心概念与实现方式核心概念实现方式三、Spring AOP 的关

详解SpringBoot+Ehcache使用示例

《详解SpringBoot+Ehcache使用示例》本文介绍了SpringBoot中配置Ehcache、自定义get/set方式,并实际使用缓存的过程,文中通过示例代码介绍的非常详细,对大家的学习或者... 目录摘要概念内存与磁盘持久化存储:配置灵活性:编码示例引入依赖:配置ehcache.XML文件:配置

Java 虚拟线程的创建与使用深度解析

《Java虚拟线程的创建与使用深度解析》虚拟线程是Java19中以预览特性形式引入,Java21起正式发布的轻量级线程,本文给大家介绍Java虚拟线程的创建与使用,感兴趣的朋友一起看看吧... 目录一、虚拟线程简介1.1 什么是虚拟线程?1.2 为什么需要虚拟线程?二、虚拟线程与平台线程对比代码对比示例:三