【搜索引擎分析策略(Analyzer = Tokenizer + Filter)】种瓜得豆?

本文主要是介绍【搜索引擎分析策略(Analyzer = Tokenizer + Filter)】种瓜得豆?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

你晓得伐?Solr的文本分析链

  <analyzer type="index或者query"><tokenizer class="solr.StandardTokenizerFactory"/> 只会有一个分词器!<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" /> 可以有多个过滤器!<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/> 可以有多个过滤器!<filter class="org.apache.lucene.analysis.core.LowerCaseFilterQueryFactory"/> 可以有多个过滤器!</analyzer>
单词含义拓展
term词项被分词器分词出来的独立的词项
analyzer分析器(整部剧叫做鹿鼎记)一般包含了一个tokenizer和多个filter
tokenizer分词器(有且只有一个韦小宝)首先,将文档分成一个一个单独的单词,也就是词项
filter过滤器(韦小宝的妻妾成群)其次,对词项进行自定义处理,比如去除停词,筛选同义词,大写转小写等

你晓得伐?ES的文本分析步骤

步骤描述举例个数
1. 字符过滤(character filtering)调整或者过滤文本字段的字符HTMLStripCharFilter可配置多个字符过滤器
2. 分词处理(tokenization)原生文本会被转换成一连串的token,基本方法是采用标准分词器,利用“空格”和“标点符号”将文本切分成token。StandardTokenizer任何给定的分析链上,只可能有一个分词器(有且只有一个韦小宝)
3. token过滤(token filtering)通过对token的添加、删除和修改,对“token流”加以调整LowerCaseFilter,SynonymFilter和StopWordFilter可配置多个token过滤器(韦小宝的妻妾成群)
  • 各个行业,各个垂直领域需要根据具体业务场景选用或者开发适合自己的analyzer,比如Lucene为NLP领域提供的analyzers-opennlp工具包。
    The Apache OpenNLP library is a machine learning based toolkit for the processing of natural language text.
  • ES为各种语言提供了简便易用的Analysis Plugins文本分析工具,比如ayalysisc-icu和analysis-kuromoji插件

索引输入

id,title,name
1234,a the mazhaohui CCC,a the mazhaohui this Apple

期望查询结果

索引时被过滤的字段(比如停用词),仍然在查询时保留作为查询条件。

优化思路

  1. fieldType支持配置analyzer作为文本解析器,同时analyzer可以分“index”和“query”两个场景。analyzer中支持配置tokenizer和filter对词项进行定制化操作,比如Solr自带的StandardTokenizer,它是TokenStream类的实现类,各种Filter比如StopFilterFactory和LowerCaseFilter,他们也都是TokenStream的子类(本是同根生,相煎何太急)。
  2. 每个TokenStream的实现类都必须必须实现incrementToken方法,对词项进行自定义修改。因此可以考虑在query场景的分词过滤器中自定义是否将查询词项过滤或者保留,以实现和索引不一样的分词逻辑。
  3. 某些查询词项在索引时被分词器或者过滤器过滤,现在需要将某些特定的查询词项保留,使得该查询条件仍然在查询时生效。
  • 在索引时,可以减少索引的存储量,减少磁盘占用空间,提升索引的性能;
  • 在查询时,带上了早已被过滤的查询条件,可能带来查询性能的提升,无论是AND(减少结果集,减少带宽占用)还是OR(至少不会增大结果集)操作。

managed-schema配置分析器

<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100"><analyzer type="index"><tokenizer class="solr.StandardTokenizerFactory"/><filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" /><!-- in this example, we will only use synonyms at query time<filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>--><filter class="solr.LowerCaseFilterFactory"/></analyzer><analyzer type="query"><tokenizer class="solr.StandardTokenizerFactory"/><filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" /><filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/><filter class="org.apache.lucene.analysis.core.LowerCaseFilterQueryFactory"/></analyzer>
</fieldType>

设置停词表stopwords.txt

更新停词表stopwords.txt,更新配置集,索引重新加载配置集,重启Solr服务才能生效。
停词stopwords.txt

本是同根生,相煎何太急

StandardTokenizer是一个TokenStream,各种Filter比如LowerCaseFilter也是一个TokenStream,也就是说他们拥有共同的父类
每个TokenStream的实现类都必须必须实现incrementToken方法,对词项进行自定义的修改。
Do whatever you want.
incrementToken方法

首当其冲的是用StandardTokenizer将词项分出来

StandardTokenizer的scanner从Reader里逐个读出每个分词出来的词项。

  • a
  • the
  • mazhaohui
  • CCC
    分词出来
    StandardTokenizer

取其精华,去其糟粕

在StandardTokenizer和FilteringTokenFilter完成incrementToken之后,“a the mazhaohui”这些停词已经被过滤掉了,
接下来,在LowerCaseFilter的incrementToken(基类TokenStream的抽象方法)成功将词项CCC,转成了小写的ccc。
ccc
因此,最终title字段会索引ccc词项以供查询(indexed),而a the mazhaohui词项被设置为停词,不会被索引,只会被查询ccc的结果带出(stored)。分词过滤逻辑到此结束,接着由DefaultIndexingChain继续索引流程。
DefaultIndexingChain继续索引流程

样例测试

  1. 在停词表stopwords.txt中增加abcdefg
  2. 设置查询条件为title:abcdefg

结果展示

经过调试可以看到,在索引时会被直接当做停词过滤的词项"abcdefg",在查询时被当做查询条件接受了。这时词项“abcdefg”就会存活下来,作为查询条件继续后续的查询流程。
org.apache.lucene.analysis.core.StopFilterQueryFactory

Exception

ClassNotFoundException: solr.StopFilterQueryFactory类找不到?!简写包名看起来不行~
java.lang.ClassNotFoundException: solr.StopFilterQueryFactory

Solution

managed-schema配置query场景下的分词过滤器,使用刚刚新建出来的StopFilterQueryFactory类,注意写上完整包名。
org.apache.lucene.analysis.core.StopFilterQueryFactory

Reference

https://github.com/apache/lucene-solr/blob/master/solr/core/src/test-files/solr/collection1/conf/stopwords.txt
https://github.com/magese/ik-analyzer-solr7
https://www.ibm.com/support/knowledgecenter/en/SSZLC2_9.0.0/com.ibm.commerce.tutorials.doc/tutorial/tsd_search3_solrconfig.htm
https://www.cnblogs.com/immortal-ghost/p/6954360.html

这篇关于【搜索引擎分析策略(Analyzer = Tokenizer + Filter)】种瓜得豆?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/724717

相关文章

MyBatis Plus 中 update_time 字段自动填充失效的原因分析及解决方案(最新整理)

《MyBatisPlus中update_time字段自动填充失效的原因分析及解决方案(最新整理)》在使用MyBatisPlus时,通常我们会在数据库表中设置create_time和update... 目录前言一、问题现象二、原因分析三、总结:常见原因与解决方法对照表四、推荐写法前言在使用 MyBATis

Python主动抛出异常的各种用法和场景分析

《Python主动抛出异常的各种用法和场景分析》在Python中,我们不仅可以捕获和处理异常,还可以主动抛出异常,也就是以类的方式自定义错误的类型和提示信息,这在编程中非常有用,下面我将详细解释主动抛... 目录一、为什么要主动抛出异常?二、基本语法:raise关键字基本示例三、raise的多种用法1. 抛

Redis过期删除机制与内存淘汰策略的解析指南

《Redis过期删除机制与内存淘汰策略的解析指南》在使用Redis构建缓存系统时,很多开发者只设置了EXPIRE但却忽略了背后Redis的过期删除机制与内存淘汰策略,下面小编就来和大家详细介绍一下... 目录1、简述2、Redis http://www.chinasem.cn的过期删除策略(Key Expir

github打不开的问题分析及解决

《github打不开的问题分析及解决》:本文主要介绍github打不开的问题分析及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、找到github.com域名解析的ip地址二、找到github.global.ssl.fastly.net网址解析的ip地址三

Mysql的主从同步/复制的原理分析

《Mysql的主从同步/复制的原理分析》:本文主要介绍Mysql的主从同步/复制的原理分析,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录为什么要主从同步?mysql主从同步架构有哪些?Mysql主从复制的原理/整体流程级联复制架构为什么好?Mysql主从复制注意

java -jar命令运行 jar包时运行外部依赖jar包的场景分析

《java-jar命令运行jar包时运行外部依赖jar包的场景分析》:本文主要介绍java-jar命令运行jar包时运行外部依赖jar包的场景分析,本文给大家介绍的非常详细,对大家的学习或工作... 目录Java -jar命令运行 jar包时如何运行外部依赖jar包场景:解决:方法一、启动参数添加: -Xb

Apache 高级配置实战之从连接保持到日志分析的完整指南

《Apache高级配置实战之从连接保持到日志分析的完整指南》本文带你从连接保持优化开始,一路走到访问控制和日志管理,最后用AWStats来分析网站数据,对Apache配置日志分析相关知识感兴趣的朋友... 目录Apache 高级配置实战:从连接保持到日志分析的完整指南前言 一、Apache 连接保持 - 性

Linux中的more 和 less区别对比分析

《Linux中的more和less区别对比分析》在Linux/Unix系统中,more和less都是用于分页查看文本文件的命令,但less是more的增强版,功能更强大,:本文主要介绍Linu... 目录1. 基础功能对比2. 常用操作对比less 的操作3. 实际使用示例4. 为什么推荐 less?5.

spring-gateway filters添加自定义过滤器实现流程分析(可插拔)

《spring-gatewayfilters添加自定义过滤器实现流程分析(可插拔)》:本文主要介绍spring-gatewayfilters添加自定义过滤器实现流程分析(可插拔),本文通过实例图... 目录需求背景需求拆解设计流程及作用域逻辑处理代码逻辑需求背景公司要求,通过公司网络代理访问的请求需要做请

Java集成Onlyoffice的示例代码及场景分析

《Java集成Onlyoffice的示例代码及场景分析》:本文主要介绍Java集成Onlyoffice的示例代码及场景分析,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要... 需求场景:实现文档的在线编辑,团队协作总结:两个接口 + 前端页面 + 配置项接口1:一个接口,将o