Lucene4.3进阶开发之二渡天劫( 五)

2024-05-15 04:48

本文主要是介绍Lucene4.3进阶开发之二渡天劫( 五),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

[b][color=red][size=x-large]转载请务必注明,原创地址,谢谢配合!
[url]http://qindongliang1922.iteye.com/blog/1998532[/url]
[/size][/color][/b]

[b][color=olive][size=large]散仙,在上篇文章,分析了IndexWriterConfig的作用以及一些功能,今天在这开始之前,我们再来简单回顾下,IndexWriterConfig的作用。

IndexWriterConfig保存了一些运行时的配置参数,这些参数会在程序运行期间一直存在,所以在大多数时候我们只需要一份单例的IndexWriterConfig即可,而IndexWriterConfig又是Lucene内部实现的线程安全的类,所以在一些需要同步的场景时,我们没必要给IndexWriterConfig在应用外围,在加上自己的线程安全逻辑,IndexWriterConfig里面的IndexWriterConfig.setRAMBufferSizeMB(double)方法和IndexWriterConfig.setMaxBufferedDocs(int)).方法,是2个比较重要的调优方法,一般情况下,我们可以根据自己服务器的配置,来适当的加大这个参数的比值,通过更大的参数,来实现更给力的批处理添加,当然这个也得根据我们的实际环境以及磁盘IO等等来定。
[/size][/color][/b]


[b][color=green][size=large]IndexWriter是负责创建和维护索引的重要的类,一些配置信息的获取主要来自IndexWriterConfig类,另外我们还需要一个文件目录来存放索引,所以我们经常看见如下的一行代码:[/size][/color][/b]

IndexWriter writer=new IndexWriter(directory, writerConfig);


[b][color=green][size=large]之所以说IndexWriter是一个重要的索引管理类,不仅仅是因为它提供基于操作索引的增删改查的能力,而且一个很重要的表现就是,它具有二阶段提交的事务功能,看源码我们就会发现它实现2个接口,一个Closeable接口和TwoPhaseCommit接口:[/size][/color][/b]
public class IndexWriter implements Closeable, TwoPhaseCommit{

[b][color=olive][size=large]正是由于 TwoPhaseCommit接口,所以IndexWriter 才具备了2阶段的事务功能,以及可恢复的回滚功能,这个功能,在某些突发的意外情况里可以正确的保证索引结构的安全和稳定,即使是索引添加失败,也可以通过回滚功能,恢复上一次提交前的状态。[/size][/color][/b]
[b][color=green][size=large]下面给出一些IndexWriter里面,比较常用和重要的几个方法:

[table]
|方法名|描述
|addDocument(Iterable<? extends IndexableField> doc)|添加一个doc
|addDocument(Iterable<? extends IndexableField> doc, Analyzer analyzer) |添加一个doc,使用指定的分词器
|addDocument(Iterable<? extends IndexableField> doc, Analyzer analyzer) |基于Directory的合并索引
|addIndexes(IndexReader... readers) |基于IndexReader的合并索引
|deleteAll() |删除所有的索引
|deleteDocuments(Query... queries) |删除doc数据,来自多个query的结果
|deleteDocuments(Query query) |删除doc数据,来自一个query的结果
|deleteDocuments(Term term) |删除doc数据,来自一个term
|flush(boolean triggerMerge, boolean applyAllDeletes) |刷新缓冲区到磁盘上
|forceMerge(int maxNumSegments) |合并段文件
|maxDoc() |返回文档总数不包含已经删除的
|numDocs() |返回文档总数包含已经删除的
|rollback() |在没有进行最终提交前,回滚数据
|updateDocument(Term term, Iterable<? extends IndexableField> doc) |更新一个doc,实际上是先删除后添加的策略
|tryDeleteDocument(IndexReader readerIn, int docID) |基于docid的删除方法,注意indexreader必须使用的是最新的,也就是基于近实时的,这样保证删除不会发生意外
|waitForMerges() |阻塞程序直至合并完成
[/table]
[/size][/color][/b]
[b][color=olive][size=large]最后,在唠叨几句,在上面的一些方法中,有几个方法时非常有用的,基本的增删改的那个就不多说了,除此之外还要注意的是,addIndexes(IndexReader... readers) 这个方法,因为lucene默认的任何时候都只能单线程写的局限性,所以在大批量建索引的时候,这可能是一个影响的性能的环节,所以建议使用多个线程建索引,分别建在不同的目录,那么最后就存在一个问题,我们怎么合并索引? 这个时候就是这个方法大显身手的时候了,使用它可以建多份索引合并成一份索引,或许你还想提升性能,你也可以开启复合索引,但这个针对少写多读的场景是非常适合 的,如果更新频繁,那么并不适合使用复合索引。另外一个forceMerge(int maxNumSegments) 这个方法,是合并索引里面段文件的方法,通过合并一些小段,可以用来,压缩空间,同样的对于提升性能也是有一定效果的,注意这个参数并不是意味着越小越好,当我们索引很大的时候,合并成多个段,也是一个不错的选择。
[/size][/color][/b]


[b][color=olive][size=large]今天,就写到这里吧,最后感谢各位道友,耐心看完此篇,文章若有不足之处,欢迎指正交流![/size][/color][/b]

[b][color=red][size=x-large]转载请务必注明,原创地址,谢谢配合!
[url]http://qindongliang1922.iteye.com/blog/1998532[/url]
[/size][/color][/b]

这篇关于Lucene4.3进阶开发之二渡天劫( 五)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/990849

相关文章

一文教你如何解决Python开发总是import出错的问题

《一文教你如何解决Python开发总是import出错的问题》经常朋友碰到Python开发的过程中import包报错的问题,所以本文将和大家介绍一下可编辑安装(EditableInstall)模式,可... 目录摘要1. 可编辑安装(Editable Install)模式到底在解决什么问题?2. 原理3.

Python+PyQt5开发一个Windows电脑启动项管理神器

《Python+PyQt5开发一个Windows电脑启动项管理神器》:本文主要介绍如何使用PyQt5开发一款颜值与功能并存的Windows启动项管理工具,不仅能查看/删除现有启动项,还能智能添加新... 目录开篇:为什么我们需要启动项管理工具功能全景图核心技术解析1. Windows注册表操作2. 启动文件

使用Python开发Markdown兼容公式格式转换工具

《使用Python开发Markdown兼容公式格式转换工具》在技术写作中我们经常遇到公式格式问题,例如MathML无法显示,LaTeX格式错乱等,所以本文我们将使用Python开发Markdown兼容... 目录一、工具背景二、环境配置(Windows 10/11)1. 创建conda环境2. 获取XSLT

Android开发环境配置避坑指南

《Android开发环境配置避坑指南》本文主要介绍了Android开发环境配置过程中遇到的问题及解决方案,包括VPN注意事项、工具版本统一、Gerrit邮箱配置、Git拉取和提交代码、MergevsR... 目录网络环境:VPN 注意事项工具版本统一:android Studio & JDKGerrit的邮

Python开发文字版随机事件游戏的项目实例

《Python开发文字版随机事件游戏的项目实例》随机事件游戏是一种通过生成不可预测的事件来增强游戏体验的类型,在这篇博文中,我们将使用Python开发一款文字版随机事件游戏,通过这个项目,读者不仅能够... 目录项目概述2.1 游戏概念2.2 游戏特色2.3 目标玩家群体技术选择与环境准备3.1 开发环境3

Go语言开发实现查询IP信息的MCP服务器

《Go语言开发实现查询IP信息的MCP服务器》随着MCP的快速普及和广泛应用,MCP服务器也层出不穷,本文将详细介绍如何在Go语言中使用go-mcp库来开发一个查询IP信息的MCP... 目录前言mcp-ip-geo 服务器目录结构说明查询 IP 信息功能实现工具实现工具管理查询单个 IP 信息工具的实现服

使用Python开发一个带EPUB转换功能的Markdown编辑器

《使用Python开发一个带EPUB转换功能的Markdown编辑器》Markdown因其简单易用和强大的格式支持,成为了写作者、开发者及内容创作者的首选格式,本文将通过Python开发一个Markd... 目录应用概览代码结构与核心组件1. 初始化与布局 (__init__)2. 工具栏 (setup_t

Spring Shell 命令行实现交互式Shell应用开发

《SpringShell命令行实现交互式Shell应用开发》本文主要介绍了SpringShell命令行实现交互式Shell应用开发,能够帮助开发者快速构建功能丰富的命令行应用程序,具有一定的参考价... 目录引言一、Spring Shell概述二、创建命令类三、命令参数处理四、命令分组与帮助系统五、自定义S

Python通过模块化开发优化代码的技巧分享

《Python通过模块化开发优化代码的技巧分享》模块化开发就是把代码拆成一个个“零件”,该封装封装,该拆分拆分,下面小编就来和大家简单聊聊python如何用模块化开发进行代码优化吧... 目录什么是模块化开发如何拆分代码改进版:拆分成模块让模块更强大:使用 __init__.py你一定会遇到的问题模www.

Spring Security基于数据库的ABAC属性权限模型实战开发教程

《SpringSecurity基于数据库的ABAC属性权限模型实战开发教程》:本文主要介绍SpringSecurity基于数据库的ABAC属性权限模型实战开发教程,本文给大家介绍的非常详细,对大... 目录1. 前言2. 权限决策依据RBACABAC综合对比3. 数据库表结构说明4. 实战开始5. MyBA