Lucene4.3开发之第五步之融丹筑基(五)

2024-05-15 04:58

本文主要是介绍Lucene4.3开发之第五步之融丹筑基(五),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

[b][size=x-large][color=red]本文章允许转载,转载请注明原创地址
[url]http://qindongliang1922.iteye.com/blog/1924608[/url]
[/color][/size][/b]

[b][color=green][size=x-large]排序是对于全文检索来言是一个必不可少的功能,在实际运用中,排序功能能在某些时候给我们带来很大的方便,比如在淘宝,京东等一些电商网站我们可能通过排序来快速找到价格最便宜的商品,或者通过排序来找到评论数最高或卖的最好的商品,再比如在Iteye里的博客栏里,每天都会以降序的方式,来显示出最新发出的几篇博客,有了排序,我们就能在某些时候很方便快速的得到某些有效信息,所以说排序功能,无处不在 ^_^。[/size][/color][/b]


[b][color=green][size=x-large]那么,本篇散仙就来看下我们在Lucene中怎么使用其丰富的排序功能。[/size][/color][/b]

[b][color=green][size=x-large]在这之前,我们先来熟悉下lucene中排序的基本知识,在默认情况下,Lucene使用的是以关联性降序的方式为默认的排序方式,这样可以使得我们搜索的结果通常是最优的,因为它会尽可能的使得首先出现的几个结果是与我们搜索的内容最相关,而不需要我们翻页寻找我们最想要的内容,这一点是与数据库相比,是全文检索一个很大的优点。当然,在实际开发中我们也需要根据业务的实际情况来给我们的客户提供多种不同的排序方式。我们先来看下在Lucene中比较特殊的两种基本的排序方式
[/size][/color][/b]
[b][size=x-large]
[table]
|Sort里的属性|SortField里的属性|含义
|Sort.INDEXORDER|SortField.FIELD_DOC|按照索引的顺序进行排序
|Sort.RELEVANCE|SortField.FIELD_SCORE|按照关联性评分进行排序
[/table][/size][/b]

[b][size=x-large]我们再来看几个检索时需要用的方法[/size][/b]
 =========SortField类============//field是排序字段type是排序类型public SortField(String field, Type type);//field是排序字段type是排序类型reverse是指定升序还是降序//reverse 为true是降序  false为升序  public SortField(String field, Type type, boolean reverse)  =========Sort类============  public Sort();//Sort对象构造方法默认是按文档评分排序  public Sort(SortField field);//排序的一个SortField  public Sort(SortField... fields)//排序的多个SortField可以传入一个数组  =========IndexSearche类r========//query是查询的Query对象 filter是过滤  n返回的数量  sort是排序search(Query query, Filter filter, int n, Sort sort) //doDocScores 为true情况下每个命中的结果下都会被评分//doMaxScore  为true情况下对最大分值的搜索结果进行评分search(Query query, Filter filter, int n, Sort sort, boolean doDocScores, boolean doMaxScore) 

[b][color=green][size=x-large]1,在还没有进行一点排序前我们先来看下索引里的内容,核心代码如下:[/size][/color][/b]
        TopDocs topDocs=searcher.search(new MatchAllDocsQuery(),10000);     

[img]http://dl2.iteye.com/upload/attachment/0088/1906/4268c470-9b26-363a-82fb-dc15a1e8ecd9.jpg[/img]
[b][color=green][size=x-large]2,使用默认的关联性评分后,核心代码和运行效果图如下:[/size][/color][/b]
   Sort sort=new Sort();//默认使用关联性评分		     TopDocs topDocs=searcher.search(new MatchAllDocsQuery(),10000,sort);


[img]http://dl2.iteye.com/upload/attachment/0088/1934/27f1b4ae-9a02-3cf7-8efa-89b31e9003e4.jpg[/img]

[b][color=green][size=x-large]关于上图中乱码字符原因是因为默认排序情况下lucene是不会对搜索结果进行评分操作的,因为评分操作会降低性能,所以关于score的那一列返回的是NAN的字符串,出于格式的需要,散仙在用DecimalFormat类给其评分结果保留2位小数时,因为是一个特殊字符,所以就出现了上图情况。[/size][/color][/b]

[b][color=green][size=x-large]3,按照日期降序排序,,核心代码和运行效果图如下:[/size][/color][/b]
 Sort sort=new Sort(new SortField("date", Type.INT,true));//true为降序排列		     TopDocs topDocs=searcher.search(new MatchAllDocsQuery(),10000,sort);


[img]http://dl2.iteye.com/upload/attachment/0088/1940/d316d04b-2474-31f9-8f0c-b5ded55ec0ef.jpg[/img]
[b][color=green][size=x-large]3,按照价格升序排序,,核心代码和运行效果图如下:[/size][/color][/b]
 Sort sort=new Sort(new SortField("price", Type.DOUBLE,false));//false为降序排列		     TopDocs topDocs=searcher.search(new MatchAllDocsQuery(),10000,sort);


[img]http://dl2.iteye.com/upload/attachment/0088/1944/061f2aac-e493-3cb8-862b-746c0bf1ed7a.jpg[/img]
[b][color=green][size=x-large]4,多字段排序,按照日期降序的情况下,因为id为7和8的日期相同,所以我们就新增一个排序字段按ename升序排列,,核心代码和运行效果图如下:[/size][/color][/b]
 // Sort sort=new Sort(new SortField("date", Type.INT, true),new SortField("ename", Type.STRING, false));		    //这两段代码效果一样		    Sort sort=new Sort(new SortField[]{new SortField("date", Type.INT, true),new SortField("ename", Type.STRING, false)});		     TopDocs topDocs=searcher.search(new MatchAllDocsQuery(),10000,sort);


[img]http://dl2.iteye.com/upload/attachment/0088/1961/f54ef254-5c22-3b08-9e25-169843d6f47e.jpg[/img]
[b][color=green][size=x-large]5,带评分的排序,注意后面两个布尔类型的变量可以控制是否评分,特别是在没有要求需要打分时,建议别开启,大数量时对性能影响较大,检索“编程”得到的结果,默认按评分降序排序,核心代码和运行效果图如下:[/size][/color][/b]
    Sort sort=Sort.RELEVANCE;		    TopDocs topDocs=searcher.search(new TermQuery(new Term("bookname", "编程")),null,100,sort,true,true);


[img]http://dl2.iteye.com/upload/attachment/0088/1963/9fdf363b-1c48-3dce-a3c2-02be40597f8e.jpg[/img]
[b][color=green][size=x-large]上面的编程,编程因为在切分时编程的tf出现了2次,所以在查询时有较高的得分,所以排在首位。[/size][/color][/b]

[b][color=green][size=x-large]6,注意几点
(1)排序对一个文档里什么域都没存储,使用字符串排序会排在首位
(2)排序对一个文档里什么域都没存储,使用数字类型排序会默认给其赋值为0进行排序
(3)我们可以对数字类型的null值的文档进行代码控制,可以将其设置为最大,所以将会排在最后面,代码如下
[/size][/color][/b]
 SortField sortField = new SortField("value", SortField.Type.INT);    sortField.setMissingValue(Integer.MAX_VALUE);

[b][size=x-large][color=red]最后声明一点,允许转载,转载请注明原创地址
[url]http://qindongliang1922.iteye.com/blog/1924608[/url],谢谢合作。
[/color][/size][/b]

这篇关于Lucene4.3开发之第五步之融丹筑基(五)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/990868

相关文章

基于Python开发一个有趣的工作时长计算器

《基于Python开发一个有趣的工作时长计算器》随着远程办公和弹性工作制的兴起,个人及团队对于工作时长的准确统计需求日益增长,本文将使用Python和PyQt5打造一个工作时长计算器,感兴趣的小伙伴可... 目录概述功能介绍界面展示php软件使用步骤说明代码详解1.窗口初始化与布局2.工作时长计算核心逻辑3

python web 开发之Flask中间件与请求处理钩子的最佳实践

《pythonweb开发之Flask中间件与请求处理钩子的最佳实践》Flask作为轻量级Web框架,提供了灵活的请求处理机制,中间件和请求钩子允许开发者在请求处理的不同阶段插入自定义逻辑,实现诸如... 目录Flask中间件与请求处理钩子完全指南1. 引言2. 请求处理生命周期概述3. 请求钩子详解3.1

如何基于Python开发一个微信自动化工具

《如何基于Python开发一个微信自动化工具》在当今数字化办公场景中,自动化工具已成为提升工作效率的利器,本文将深入剖析一个基于Python的微信自动化工具开发全过程,有需要的小伙伴可以了解下... 目录概述功能全景1. 核心功能模块2. 特色功能效果展示1. 主界面概览2. 定时任务配置3. 操作日志演示

JavaScript实战:智能密码生成器开发指南

本文通过JavaScript实战开发智能密码生成器,详解如何运用crypto.getRandomValues实现加密级随机密码生成,包含多字符组合、安全强度可视化、易混淆字符排除等企业级功能。学习密码强度检测算法与信息熵计算原理,获取可直接嵌入项目的完整代码,提升Web应用的安全开发能力 目录

一文教你如何解决Python开发总是import出错的问题

《一文教你如何解决Python开发总是import出错的问题》经常朋友碰到Python开发的过程中import包报错的问题,所以本文将和大家介绍一下可编辑安装(EditableInstall)模式,可... 目录摘要1. 可编辑安装(Editable Install)模式到底在解决什么问题?2. 原理3.

Python+PyQt5开发一个Windows电脑启动项管理神器

《Python+PyQt5开发一个Windows电脑启动项管理神器》:本文主要介绍如何使用PyQt5开发一款颜值与功能并存的Windows启动项管理工具,不仅能查看/删除现有启动项,还能智能添加新... 目录开篇:为什么我们需要启动项管理工具功能全景图核心技术解析1. Windows注册表操作2. 启动文件

使用Python开发Markdown兼容公式格式转换工具

《使用Python开发Markdown兼容公式格式转换工具》在技术写作中我们经常遇到公式格式问题,例如MathML无法显示,LaTeX格式错乱等,所以本文我们将使用Python开发Markdown兼容... 目录一、工具背景二、环境配置(Windows 10/11)1. 创建conda环境2. 获取XSLT

Android开发环境配置避坑指南

《Android开发环境配置避坑指南》本文主要介绍了Android开发环境配置过程中遇到的问题及解决方案,包括VPN注意事项、工具版本统一、Gerrit邮箱配置、Git拉取和提交代码、MergevsR... 目录网络环境:VPN 注意事项工具版本统一:android Studio & JDKGerrit的邮

Python开发文字版随机事件游戏的项目实例

《Python开发文字版随机事件游戏的项目实例》随机事件游戏是一种通过生成不可预测的事件来增强游戏体验的类型,在这篇博文中,我们将使用Python开发一款文字版随机事件游戏,通过这个项目,读者不仅能够... 目录项目概述2.1 游戏概念2.2 游戏特色2.3 目标玩家群体技术选择与环境准备3.1 开发环境3

Go语言开发实现查询IP信息的MCP服务器

《Go语言开发实现查询IP信息的MCP服务器》随着MCP的快速普及和广泛应用,MCP服务器也层出不穷,本文将详细介绍如何在Go语言中使用go-mcp库来开发一个查询IP信息的MCP... 目录前言mcp-ip-geo 服务器目录结构说明查询 IP 信息功能实现工具实现工具管理查询单个 IP 信息工具的实现服