用Java实现搜索引擎布尔运算

2024-06-13 00:32

本文主要是介绍用Java实现搜索引擎布尔运算,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

索引类:


import java.io.ByteArrayInputStream;
import java.io.ByteArrayOutputStream;
import java.io.IOException;
import java.io.ObjectInputStream;
import java.io.ObjectOutputStream;
import java.io.Serializable;
import java.util.BitSet;
import java.util.Collection;
import java.util.HashMap;
import java.util.Map;
import java.util.zip.GZIPInputStream;
import java.util.zip.GZIPOutputStream;

public class Index implements Serializable {
/**
*
*/
private static final long serialVersionUID = 7362753433812661741L;
private Map<String, BitSet> indexMap;

private void writeObject(ObjectOutputStream out) throws IOException {
// 压缩
ByteArrayOutputStream buf = new ByteArrayOutputStream();
ObjectOutputStream objOut = new ObjectOutputStream(new GZIPOutputStream(buf));
objOut.writeObject(indexMap);
objOut.close();
out.writeObject(buf.toByteArray());
}

@SuppressWarnings("unchecked")
private void readObject(ObjectInputStream in) throws IOException, ClassNotFoundException {
byte[] buf = (byte[]) in.readObject();
ObjectInputStream objIn = new ObjectInputStream(new GZIPInputStream(
new ByteArrayInputStream(buf)));
indexMap = (Map<String, BitSet>) objIn.readObject();
objIn.close();
}

public Index(int indexSize) {
int initialCapacity = indexSize * 4 / 3;
indexMap = new HashMap<String, BitSet>(initialCapacity);
}

public Index() {
this(12);
}

public void setId(Collection<String> c, int id) {

for (String key : c) {
BitSet bit = indexMap.get(key);
if (bit == null) {
bit = new BitSet();
indexMap.put(key, bit);
}
bit.set(id);
}
}

public void setId(String[] c, int id) {

for (String key : c) {
BitSet bit = indexMap.get(key);
if (bit == null) {
bit = new BitSet();
indexMap.put(key, bit);
}
bit.set(id);
}
}

public int[] getIdSetWithAnd(String... keys) {
checkKeys(keys);
int n = keys.length;
BitSet[] bits = new BitSet[n];
int i = 0;
for (String key : keys) {
BitSet bit = indexMap.get(key);
if (bit != null) {
bits[i++] = bit;
}
}
if (i == 0)
return null;
BitSet bit = (BitSet) bits[0].clone();
for (int j = 1; j < i; j++) {
bit.and(bits[j]);
}
return getIdSet(bit);
}

public int[] getIdSetWithOr(String... keys) {
checkKeys(keys);
int n = keys.length;
BitSet[] bits = new BitSet[n];
int i = 0;
for (String key : keys) {
BitSet bit = indexMap.get(key);
if (bit != null) {
bits[i++] = bit;
}
}
if (i == 0)
return null;
BitSet bit = (BitSet) bits[0].clone();
for (int j = 1; j < i; j++) {
bit.or(bits[j]);
}
return getIdSet(bit);
}

private static void checkKeys(String... keys) {
if (keys == null)
throw new NullPointerException("keys is null.");
if (keys.length < 2) {
throw new IllegalArgumentException("keys' length is less than 2.");
}
}

public int[] getIdSet(String key) {
BitSet bit = indexMap.get(key);
if (bit == null)
return null;
else {
return getIdSet(bit);
}
}

private int[] getIdSet(BitSet bit) {
int n = bit.size();
int[] ids = new int[n];
int j = 0;
for (int i = 0; i < n; i++) {
if (bit.get(i)) {
ids[j++] = i;
}
}
if (j == n)
return ids;
else {
int[] arr = new int[j];
System.arraycopy(ids, 0, arr, 0, j);
return arr;
}
}
}



小小测试:


import java.io.File;
import java.io.IOException;
import java.util.Arrays;
import java.util.regex.Pattern;

import bluechip.io.SerializeUtils;
import bluechip.io.file.AbstractFileProcessor;
import bluechip.io.file.FileProcessor;

public class IndexTest {

/**
* @param args
*/
public static void main(String[] args) throws Exception {
//统计一下运行时间
long time = System.currentTimeMillis();
File file = new File("d:/index.dat");

Index data = null;
try {
//到从文件读取序列化对象
data = SerializeUtils.readObject(file);
} catch (Exception ex) {
final Index index = new Index(4000);
final Pattern pattern = Pattern.compile("\\s+");//简单的分词
FileProcessor fp = new AbstractFileProcessor(new File("D:/英文版世界名著[下]/罪与罚.txt")) {

@Override
protected void processLine(String line) throws IOException {
String[] words = pattern.split(line);
//一行一条记录
index.setId(words, this.getLineNumber());
}
};

fp.process();
data = index;
//序列化存储到文件
SerializeUtils.writeObject(data, file);
}
//查找存在下列单词的行号
int[] ids = data.getIdSetWithAnd("his", "and", "was", "were", "as", "to");
System.out.println(Arrays.toString(ids));
System.out.println(ids.length);
System.out.println(System.currentTimeMillis() - time);
}

}

这篇关于用Java实现搜索引擎布尔运算的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1055775

相关文章

使用Redis快速实现共享Session登录的详细步骤

《使用Redis快速实现共享Session登录的详细步骤》在Web开发中,Session通常用于存储用户的会话信息,允许用户在多个页面之间保持登录状态,Redis是一个开源的高性能键值数据库,广泛用于... 目录前言实现原理:步骤:使用Redis实现共享Session登录1. 引入Redis依赖2. 配置R

SpringBoot实现RSA+AES自动接口解密的实战指南

《SpringBoot实现RSA+AES自动接口解密的实战指南》在当今数据泄露频发的网络环境中,接口安全已成为开发者不可忽视的核心议题,RSA+AES混合加密方案因其安全性高、性能优越而被广泛采用,本... 目录一、项目依赖与环境准备1.1 Maven依赖配置1.2 密钥生成与配置二、加密工具类实现2.1

在Java中实现线程之间的数据共享的几种方式总结

《在Java中实现线程之间的数据共享的几种方式总结》在Java中实现线程间数据共享是并发编程的核心需求,但需要谨慎处理同步问题以避免竞态条件,本文通过代码示例给大家介绍了几种主要实现方式及其最佳实践,... 目录1. 共享变量与同步机制2. 轻量级通信机制3. 线程安全容器4. 线程局部变量(ThreadL

python使用Akshare与Streamlit实现股票估值分析教程(图文代码)

《python使用Akshare与Streamlit实现股票估值分析教程(图文代码)》入职测试中的一道题,要求:从Akshare下载某一个股票近十年的财务报表包括,资产负债表,利润表,现金流量表,保存... 目录一、前言二、核心知识点梳理1、Akshare数据获取2、Pandas数据处理3、Matplotl

分布式锁在Spring Boot应用中的实现过程

《分布式锁在SpringBoot应用中的实现过程》文章介绍在SpringBoot中通过自定义Lock注解、LockAspect切面和RedisLockUtils工具类实现分布式锁,确保多实例并发操作... 目录Lock注解LockASPect切面RedisLockUtils工具类总结在现代微服务架构中,分布

Java使用Thumbnailator库实现图片处理与压缩功能

《Java使用Thumbnailator库实现图片处理与压缩功能》Thumbnailator是高性能Java图像处理库,支持缩放、旋转、水印添加、裁剪及格式转换,提供易用API和性能优化,适合Web应... 目录1. 图片处理库Thumbnailator介绍2. 基本和指定大小图片缩放功能2.1 图片缩放的

Spring Boot集成/输出/日志级别控制/持久化开发实践

《SpringBoot集成/输出/日志级别控制/持久化开发实践》SpringBoot默认集成Logback,支持灵活日志级别配置(INFO/DEBUG等),输出包含时间戳、级别、类名等信息,并可通过... 目录一、日志概述1.1、Spring Boot日志简介1.2、日志框架与默认配置1.3、日志的核心作用

Python使用Tenacity一行代码实现自动重试详解

《Python使用Tenacity一行代码实现自动重试详解》tenacity是一个专为Python设计的通用重试库,它的核心理念就是用简单、清晰的方式,为任何可能失败的操作添加重试能力,下面我们就来看... 目录一切始于一个简单的 API 调用Tenacity 入门:一行代码实现优雅重试精细控制:让重试按我

破茧 JDBC:MyBatis 在 Spring Boot 中的轻量实践指南

《破茧JDBC:MyBatis在SpringBoot中的轻量实践指南》MyBatis是持久层框架,简化JDBC开发,通过接口+XML/注解实现数据访问,动态代理生成实现类,支持增删改查及参数... 目录一、什么是 MyBATis二、 MyBatis 入门2.1、创建项目2.2、配置数据库连接字符串2.3、入

Springboot项目启动失败提示找不到dao类的解决

《Springboot项目启动失败提示找不到dao类的解决》SpringBoot启动失败,因ProductServiceImpl未正确注入ProductDao,原因:Dao未注册为Bean,解决:在启... 目录错误描述原因解决方法总结***************************APPLICA编