Lucene4.3开发之第七步之合体后期(七)

2024-05-15 04:58

本文主要是介绍Lucene4.3开发之第七步之合体后期(七),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

[b][color=cyan][size=x-large]转载请注明原创地址:
[url]http://qindongliang1922.iteye.com/blog/1942030[/url]
[/size][/color][/b]


[b][color=green][size=x-large]今天散仙要写的是关于Lucene里面Collector这个东西,暂且称它为收集器吧,先来看下Lucene内置Collector类的继承图。


[img]http://dl2.iteye.com/upload/attachment/0089/3667/f21da706-2882-3eee-bfda-9debf9190edf.jpg[/img]


我们先来回顾下,一个基本的搜索流程是怎么完成的
1,得到一个索引目录Directory(可能基于内存的或者磁盘的)。
2,得到一个DirectoryReader。
3,实例化查询组件IndexSearcher。
4,检索得到TopDoc查询结果集
5,遍历ScoresDocs处理结果


我们看下这个检索的流程,大概可以分这5步,前1,2,3算是准备工作,后面的2步是我们经常需要进行数据处理的地方,那么我们Collector到底工作在哪一步呢?,其实Collector真正的起作用是在3-4步之间的。

那么Collector的作用是干什么的?为什么需要使用Collector?

在这之前先分析下TopDocs这个类,这个类的工作原理,其实在后台使用的也是一个收集器,收收集我们检索的结果,通过TopDocsCollector这个基类下面的2个子类收集器,来收集一次我们检索的命中数据。
所以collector的作用就是收集某些我们需要定制化的结果集,某些情况下使用collector可以可以极大的提升我们程序的性能,通过collector可以让我们对每一个匹配上的文档做一些特有的定制化操作,当然前提是在我们需要使用的情况下。
下面我们来看下collector基类的几个方法
[/size][/color][/b]
[b]
[color=blue][size=x-large]
[table]
|方法|说明
|collect()|检索时,每匹配上一个文档,都会调用此方法
|acceptsDocsOutOfOrder()|测试本collector是否能处理无序到达的docid
|setScorer(Scorer scorer) |处理检索结果的评分
|setNextReader(AtomicReaderContext context) |检索时,在多个索引段结构之间切换的方法
[/table]
[/size][/color]
[/b]
[b][color=indigo][size=x-large]下面我们来看下自定义的一个collector来实现ScoreDoc类的功能,代码如下.[/size][/color][/b]

package com.piaoxuexianjing;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import org.apache.lucene.index.AtomicReaderContext;
import org.apache.lucene.search.Collector;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.Scorer;

/**
* @author 三劫散仙
* @version 1.0
*
* 自定义收集器
* 实现评分收集
* **/
public class MyScoreCollector extends Collector {
//private HashMap<String, String> documents=new HashMap<String, String>();
List<ScoreDoc> docs=new ArrayList<ScoreDoc>();
private Scorer scorer;//scorer类
private int docBase;//全局相对段基数


@Override
public boolean acceptsDocsOutOfOrder() {
// TODO Auto-generated method stub
//返回true是允许无次序的ID
//返回false必须是有次序的
return true;
}

@Override
public void collect(int arg0) throws IOException {
/**
* 匹配上一个文档
* 就记录其docid与打分情况
*
* */
docs.add(new ScoreDoc(arg0+docBase,scorer.score()));//
}
// BinaryDocValues names;//字符类型的内置存储
// BinaryDocValues bookNames;//字符类型的内置存储
// BinaryDocValues ids;//字符类型的内置存储
// BinaryDocValues prices;//字符类型的内置存储
// FieldCache.Doubles d ; //数值类型的内置存储
// FieldCache.Ints ints;//数值类型的内置存储
@Override
public void setNextReader(AtomicReaderContext arg0) throws IOException {
this.docBase=arg0.docBase;//记录每个索引段结构的相对位置
}

@Override
public void setScorer(Scorer arg0) throws IOException {
// TODO Auto-generated method stub
this.scorer=arg0;//记录改匹配的打分情况

}




}

[b][size=x-large][color=green]测试类的核心代码[/color][/size][/b]
    //自定义收集器
MyScoreCollector scoreCollector=new MyScoreCollector();
searcher.search(new MatchAllDocsQuery(), scoreCollector);
/**
* 自定义的收集类,实现效果===>ScoreDocs类
* **/
List<ScoreDoc> s=scoreCollector.docs;
for(ScoreDoc sc:s){
System.out.println(sc.doc+"===="+sc.score);
}

[b][size=x-large]输出结果如下[/size][/b]
0====1.0
1====1.0
2====1.0
3====1.0
4====1.0
5====1.0
6====1.0
7====1.0


[b][size=x-large]至此,我们就利用自定义的collector完成了一个简单的收集评分功能,当然我们可以根据自己的业务,来实现各种各样的collector,灵活运用![/size][/b]


[b][color=cyan][size=x-large]转载请注明原创地址:

[url]http://qindongliang1922.iteye.com/blog/1942030[/url]
[/size][/color][/b]

这篇关于Lucene4.3开发之第七步之合体后期(七)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/990875

相关文章

Spring Boot集成/输出/日志级别控制/持久化开发实践

《SpringBoot集成/输出/日志级别控制/持久化开发实践》SpringBoot默认集成Logback,支持灵活日志级别配置(INFO/DEBUG等),输出包含时间戳、级别、类名等信息,并可通过... 目录一、日志概述1.1、Spring Boot日志简介1.2、日志框架与默认配置1.3、日志的核心作用

PyQt5 GUI 开发的基础知识

《PyQt5GUI开发的基础知识》Qt是一个跨平台的C++图形用户界面开发框架,支持GUI和非GUI程序开发,本文介绍了使用PyQt5进行界面开发的基础知识,包括创建简单窗口、常用控件、窗口属性设... 目录简介第一个PyQt程序最常用的三个功能模块控件QPushButton(按钮)控件QLable(纯文本

基于Python开发一个图像水印批量添加工具

《基于Python开发一个图像水印批量添加工具》在当今数字化内容爆炸式增长的时代,图像版权保护已成为创作者和企业的核心需求,本方案将详细介绍一个基于PythonPIL库的工业级图像水印解决方案,有需要... 目录一、系统架构设计1.1 整体处理流程1.2 类结构设计(扩展版本)二、核心算法深入解析2.1 自

SpringBoot开发中十大常见陷阱深度解析与避坑指南

《SpringBoot开发中十大常见陷阱深度解析与避坑指南》在SpringBoot的开发过程中,即使是经验丰富的开发者也难免会遇到各种棘手的问题,本文将针对SpringBoot开发中十大常见的“坑... 目录引言一、配置总出错?是不是同时用了.properties和.yml?二、换个位置配置就失效?搞清楚加

Python中对FFmpeg封装开发库FFmpy详解

《Python中对FFmpeg封装开发库FFmpy详解》:本文主要介绍Python中对FFmpeg封装开发库FFmpy,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录一、FFmpy简介与安装1.1 FFmpy概述1.2 安装方法二、FFmpy核心类与方法2.1 FF

基于Python开发Windows屏幕控制工具

《基于Python开发Windows屏幕控制工具》在数字化办公时代,屏幕管理已成为提升工作效率和保护眼睛健康的重要环节,本文将分享一个基于Python和PySide6开发的Windows屏幕控制工具,... 目录概述功能亮点界面展示实现步骤详解1. 环境准备2. 亮度控制模块3. 息屏功能实现4. 息屏时间

Python实例题之pygame开发打飞机游戏实例代码

《Python实例题之pygame开发打飞机游戏实例代码》对于python的学习者,能够写出一个飞机大战的程序代码,是不是感觉到非常的开心,:本文主要介绍Python实例题之pygame开发打飞机... 目录题目pygame-aircraft-game使用 Pygame 开发的打飞机游戏脚本代码解释初始化部

使用Python开发一个现代化屏幕取色器

《使用Python开发一个现代化屏幕取色器》在UI设计、网页开发等场景中,颜色拾取是高频需求,:本文主要介绍如何使用Python开发一个现代化屏幕取色器,有需要的小伙伴可以参考一下... 目录一、项目概述二、核心功能解析2.1 实时颜色追踪2.2 智能颜色显示三、效果展示四、实现步骤详解4.1 环境配置4.

Python使用smtplib库开发一个邮件自动发送工具

《Python使用smtplib库开发一个邮件自动发送工具》在现代软件开发中,自动化邮件发送是一个非常实用的功能,无论是系统通知、营销邮件、还是日常工作报告,Python的smtplib库都能帮助我们... 目录代码实现与知识点解析1. 导入必要的库2. 配置邮件服务器参数3. 创建邮件发送类4. 实现邮件

基于Python开发一个有趣的工作时长计算器

《基于Python开发一个有趣的工作时长计算器》随着远程办公和弹性工作制的兴起,个人及团队对于工作时长的准确统计需求日益增长,本文将使用Python和PyQt5打造一个工作时长计算器,感兴趣的小伙伴可... 目录概述功能介绍界面展示php软件使用步骤说明代码详解1.窗口初始化与布局2.工作时长计算核心逻辑3