Lucene4.3开发之第四步之脱胎换骨(四)

2024-05-15 04:58

本文主要是介绍Lucene4.3开发之第四步之脱胎换骨(四),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

[b][size=x-large]为防止,一些小网站私自盗用原文,请支持原创[/size][/b]
[b][size=x-large]原文永久链接:[url]http://qindongliang1922.iteye.com/blog/1922742[/url][/size][/b]

[b][color=green][size=x-large]前面几章笔者把Lucene基本入门的任督二脉给打通了,从此篇开始,就开始进行Lucene的进阶开发了,那么首先摆在我们面前的第一个必须要解决的问题,就是关于中文分词的问题,因为Lucene毕竟是国外的大牛们开发的,显然会比较侧重英文文章,不过还好,在Lucene的下载包里同步了SmartCN的分词器针对中文发行的,每一次Lucene有新的版本发行,这个包同时更新。[/size][/color][/b]

[b] [size=x-large]笔者比较推荐的中文分词器是IK分词器,在进入正式的讲解之前,我们首先对Lucene里面内置的几个分析器做个了解.[/size][/b]

[b][size=x-large][table]
|分析器类型|基本介绍
|WhitespaceAnalyzer|以空格作为切词标准,不对语汇单元进行其他规范化处理
|SimpleAnalyzer|以非字母符来分割文本信息,并将语汇单元统一为小写形式,并去掉数字类型的字符
|StopAnalyzer|该分析器会去除一些常有a,the,an等等,也可以自定义禁用词
|StandardAnalyzer|Lucene内置的标准分析器,会将语汇单元转成小写形式,并去除停用词及标点符号
|CJKAnalyzer|能对中,日,韩语言进行分析的分词器,对中文支持效果一般。
|SmartChineseAnalyzer|对中文支持稍好,但扩展性差

[/table][/size] [/b]

[b][size=x-large][color=green]评价一个分词器的性能优劣,关键是看它的切词效率以及灵活性,及扩展性,通常情况下一个良好的中文分词器,应该具备扩展词库,禁用词库和同义词库,当然最关键的是还得要与自己的业务符合,因为有些时候我们用不到一些自定义词库,所以选择分词器的时候就可以不考虑这一点。IK官网发布的最新版IK分词器对于Lucene的支持是不错的,但是对于solr的支持就不够好了,需要自己改源码支持solr4.x的版本。笔者使用的另一个IK包是经过一些人修改过的可以支持solr4.3的版本,并对扩展词库,禁用词库,同义词库完全支持,而且在solr里面配置很简单,只需要在schmal.xml进行简单配置,即可使用IK分词器的强大的定制化功能。不过官网上IK作者发布的IK包在lucene里面确都不支持同义词库扩展的功能,如果你想使用,得需要自己修改下源码了,不过即使自己修改扩展同义词也是非常容易的。[/color][/size][/b]


[b][size=x-large]下面笔者给出使用官网最后一版发布的IK在Lucene中做的测试,笔者使用的已经扩展了同义词库部分,后面会给出源码。[/size][/b]

[b][size=x-large][color=green]下面先看第一个纯分词的测试[/color][/size][/b]

package com.ikforlucene;

import java.io.StringReader;

import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;


public class Test {


public static void main(String[] args)throws Exception {
//下面这个分词器,是经过修改支持同义词的分词器
IKSynonymsAnalyzer analyzer=new IKSynonymsAnalyzer();
String text="三劫散仙是一个菜鸟";
TokenStream ts=analyzer.tokenStream("field", new StringReader(text));
CharTermAttribute term=ts.addAttribute(CharTermAttribute.class);
ts.reset();//重置做准备
while(ts.incrementToken()){
System.out.println(term.toString());
}
ts.end();//
ts.close();//关闭流


}

}

[b][size=x-large]运行结果:[/size][/b]





一个
菜鸟


[b][size=x-large]第二步,测试扩展词库,使三劫为一个词,散仙为一个词,需要在同义词库里添加三劫,散仙(注意是按行读取的),注意保存的格式为UTF-8或无BOM格式即可[/size][/b]

[img]http://dl2.iteye.com/upload/attachment/0088/0383/2f2e9cd8-e921-3885-897e-f4b8e7dabaac.jpg[/img]

[b][size=x-large]添加扩展词库后运行结果如下:[/size][/b]
三劫
散仙

一个
菜鸟


[b][size=x-large][color=green]第三步,测试禁用词库,我们把菜鸟二个字给屏蔽掉,每行一个词,保存格式同上.[/color][/size][/b]

[img]http://dl2.iteye.com/upload/attachment/0088/0375/f56582eb-6418-3449-8a90-1054b64ce589.jpg[/img]
[b][size=x-large]添加禁用词库后运行结果如下:[/size][/b]
三劫
散仙

一个


[b][color=green][size=x-large]最后我们再来测试下,同义词部分,现在笔者把河南人,洛阳人作为"一个"这个词的同义词,添加到同义词库中(笔者在这里仅仅是做一个测试,真正生产环境中的同义词肯定是正式的),注意同义词,也是按行读取的,每行的同义词之间使用逗号分割。[/size][/color][/b]

[img]http://dl2.iteye.com/upload/attachment/0088/0386/796dad6d-e0d9-3cc4-bf06-4b00a3b4095d.jpg[/img]
[b][size=x-large]添加同义词库后运行结果如下:[/size][/b]
三劫
散仙

一个
河南人
洛阳人


[b][color=green][size=x-large]至此,使用IK在Lucene4.3中大部分功能都已测试通过,下面给出扩展同义词部分的源码,有兴趣的道友们,可以参照借鉴下。
[/size][/color][/b]
package com.ikforlucene;

import java.io.IOException;
import java.io.Reader;
import java.util.HashMap;
import java.util.Map;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.synonym.SynonymFilterFactory;
import org.apache.solr.core.SolrResourceLoader;
import org.wltea.analyzer.lucene.IKTokenizer;
/**
* 可以加载同义词库的Lucene
* 专用IK分词器
*
*
* */
public class IKSynonymsAnalyzer extends Analyzer {


@Override
protected TokenStreamComponents createComponents(String arg0, Reader arg1) {

Tokenizer token=new IKTokenizer(arg1, true);//开启智能切词

Map<String, String> paramsMap=new HashMap<String, String>();
paramsMap.put("luceneMatchVersion", "LUCENE_43");
paramsMap.put("synonyms", "E:\\同义词\\synonyms.txt");
SynonymFilterFactory factory=new SynonymFilterFactory(paramsMap);
SolrResourceLoader loader= new SolrResourceLoader("");
try {
factory.inform(loader);
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}

return new TokenStreamComponents(token, factory.create(token));
}




}

[b][color=green][size=x-large]关于同义词部分的使用,各位道友,可以先去官网上下载源码,然后将此同义词扩展部分放进去即可,非常简单方便。[/size][/color][/b]

这篇关于Lucene4.3开发之第四步之脱胎换骨(四)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/990867

相关文章

基于Python开发Windows屏幕控制工具

《基于Python开发Windows屏幕控制工具》在数字化办公时代,屏幕管理已成为提升工作效率和保护眼睛健康的重要环节,本文将分享一个基于Python和PySide6开发的Windows屏幕控制工具,... 目录概述功能亮点界面展示实现步骤详解1. 环境准备2. 亮度控制模块3. 息屏功能实现4. 息屏时间

Python实例题之pygame开发打飞机游戏实例代码

《Python实例题之pygame开发打飞机游戏实例代码》对于python的学习者,能够写出一个飞机大战的程序代码,是不是感觉到非常的开心,:本文主要介绍Python实例题之pygame开发打飞机... 目录题目pygame-aircraft-game使用 Pygame 开发的打飞机游戏脚本代码解释初始化部

使用Python开发一个现代化屏幕取色器

《使用Python开发一个现代化屏幕取色器》在UI设计、网页开发等场景中,颜色拾取是高频需求,:本文主要介绍如何使用Python开发一个现代化屏幕取色器,有需要的小伙伴可以参考一下... 目录一、项目概述二、核心功能解析2.1 实时颜色追踪2.2 智能颜色显示三、效果展示四、实现步骤详解4.1 环境配置4.

Python使用smtplib库开发一个邮件自动发送工具

《Python使用smtplib库开发一个邮件自动发送工具》在现代软件开发中,自动化邮件发送是一个非常实用的功能,无论是系统通知、营销邮件、还是日常工作报告,Python的smtplib库都能帮助我们... 目录代码实现与知识点解析1. 导入必要的库2. 配置邮件服务器参数3. 创建邮件发送类4. 实现邮件

基于Python开发一个有趣的工作时长计算器

《基于Python开发一个有趣的工作时长计算器》随着远程办公和弹性工作制的兴起,个人及团队对于工作时长的准确统计需求日益增长,本文将使用Python和PyQt5打造一个工作时长计算器,感兴趣的小伙伴可... 目录概述功能介绍界面展示php软件使用步骤说明代码详解1.窗口初始化与布局2.工作时长计算核心逻辑3

python web 开发之Flask中间件与请求处理钩子的最佳实践

《pythonweb开发之Flask中间件与请求处理钩子的最佳实践》Flask作为轻量级Web框架,提供了灵活的请求处理机制,中间件和请求钩子允许开发者在请求处理的不同阶段插入自定义逻辑,实现诸如... 目录Flask中间件与请求处理钩子完全指南1. 引言2. 请求处理生命周期概述3. 请求钩子详解3.1

如何基于Python开发一个微信自动化工具

《如何基于Python开发一个微信自动化工具》在当今数字化办公场景中,自动化工具已成为提升工作效率的利器,本文将深入剖析一个基于Python的微信自动化工具开发全过程,有需要的小伙伴可以了解下... 目录概述功能全景1. 核心功能模块2. 特色功能效果展示1. 主界面概览2. 定时任务配置3. 操作日志演示

JavaScript实战:智能密码生成器开发指南

本文通过JavaScript实战开发智能密码生成器,详解如何运用crypto.getRandomValues实现加密级随机密码生成,包含多字符组合、安全强度可视化、易混淆字符排除等企业级功能。学习密码强度检测算法与信息熵计算原理,获取可直接嵌入项目的完整代码,提升Web应用的安全开发能力 目录

一文教你如何解决Python开发总是import出错的问题

《一文教你如何解决Python开发总是import出错的问题》经常朋友碰到Python开发的过程中import包报错的问题,所以本文将和大家介绍一下可编辑安装(EditableInstall)模式,可... 目录摘要1. 可编辑安装(Editable Install)模式到底在解决什么问题?2. 原理3.

Python+PyQt5开发一个Windows电脑启动项管理神器

《Python+PyQt5开发一个Windows电脑启动项管理神器》:本文主要介绍如何使用PyQt5开发一款颜值与功能并存的Windows启动项管理工具,不仅能查看/删除现有启动项,还能智能添加新... 目录开篇:为什么我们需要启动项管理工具功能全景图核心技术解析1. Windows注册表操作2. 启动文件