在网上看到的关于es的querystring的问题,值得留意

2023-11-05 16:48

本文主要是介绍在网上看到的关于es的querystring的问题,值得留意,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

问题

今天,我们的业务给我报了一个问题,说商品"视丽 花样系列美瞳"此品搜索不到,于是,我问业务要了搜索关键词和商品名称一样,发觉还真是搜索不到,遂排查问题,先给大家报告一下我的环境


【环境】
es的版本:0.90.2
中文分词:ansj
操作系统:CentOS6.5

【测试过程】
首先,我测试了分词接口,看分词器是否正常工作:
_analyze?text=视丽 花样系列美瞳彩片&analyzer=index_ansj 分词结果为:视、丽、花样、系列、美、美瞳、瞳、彩、彩片、片
_analyze?text=视丽 花样系列美瞳彩片&analyzer=query_ansj 分词结果为:视、丽、花样、系列、美瞳、彩片
纳尼,query_ansj分词完毕是index_ansj的子集啊!为嘛没有出现结果?(解释一下,美瞳和彩片这两个词是我加入的,但对问题没有影响)

于是,根据我的经验,我把视丽后面的空格去掉,query_ansj分词结果没有变化。

然后在query_string的"query"使用无空格的语句
{ "query_string": { "query": "视丽花样系列美瞳彩片", "default_field": "name", "default_operator": "and" } }商品华丽的出现了。

再把空格加上
{ "query_string": { "query": "视丽 花样系列美瞳彩片", "default_field": "name", "default_operator": "and" } }商品又没了

于是我猜想,难到是es的query_string先按空格分词了,再把结果调用分词器吗?(其实这样的问题发生过很多次了)
紧接着,再测
_analyze?text=花样系列美瞳彩片&analyzer=query_ansj 分词结果为:花样、系列、美瞳彩、片
好吧,不是index_ansj的子集了,目前,我认为是es的query_string先按空格分了词,再调用分词器导致了这个结果
于是,我尝试把词做为一个整体
{ "query_string": { "query": "\"视丽 花样系列美瞳彩片\"", "default_field": "name", "default_operator": "and" } } 带空格没有数据
{ "query_string": { "query": "\"视丽花样系列美瞳彩片\"", "default_field": "name", "default_operator": "and" } } 不带空格还是没有(汗,打滚,到底怎么回事!!)

难到引号不是这么用的?上单引号(json里单引号是合法的字符串)
{ "query_string": { "query": "'视丽 花样系列美瞳彩片'", "default_field": "name", "default_operator": "and" } }带空格依然没有数据
{ "query_string": { "query": "'视丽花样系列美瞳彩片'", "default_field": "name", "default_operator": "and" } } 不带空格有数据了
好吧,加不加单引号没什么变化。
到这里,问题出来了,es的query_string怎么样才能把"query"参数里的值做为一个整体?

接下来的思考,我尝试把美瞳和彩片加入到用户字典,但影响不大,
      _analyze?text=花样系列美瞳彩片&analyzer=query_ansj 分词结果依然为:花样、系列、美瞳彩、片,注意到了吗?就是这个美瞳彩引发的血案。
       脑袋里浮现出解决方案,1,索引和查询使用同一种分词器,2在ansj的歧义词典里加入歧义词
       
       解决方案1:
        { "query_string": { "query": "视丽花样系列美瞳彩片", "default_field": "name", "default_operator": "and", "analyzer": "index_ansj"  } }有结果
        { "query_string": { "query": "视丽 花样系列美瞳彩片", "default_field": "name", "default_operator": "and", "analyzer": "index_ansj"  } }没有结果(纳尼?到底怎么了)
        { "query_string": { "query": "\"视丽花样系列美瞳彩片\"", "default_field": "name", "default_operator": "and", "analyzer": "index_ansj"  } }有结果
       { "query_string": { "query": "\"视丽 花样系列美瞳彩片\"", "default_field": "name", "default_operator": "and", "analyzer": "index_ansj"  } }有结果(到这我已经彻底凌乱了)

       我又去试了下分词接口
        _analyze?text=花样系列美瞳彩片&analyzer=index_ansj 分词结果为 :花样、系列、美、美瞳、美瞳彩、瞳、彩、彩片、片
       原来这样分词也会出现美瞳彩

        现在我困惑的是,假如\"可以做为一个完整的词,为什么query_string的"analyzer"为"query_ansj"的时候,并未出现结果,还有那个万恶的美瞳彩是肿么回事。最后用了方案2,加入了歧义词典美瞳彩片\t美瞳\tnr\t彩片\tv完美解决了问题。

      以下是我的mapping配置及分词配置
       
  • name: {
    • typestring
    • index_analyzerindex_ansj
    • search_analyzerquery_ansj
    }

    index:
analysis:
analyzer:
index_ansj:
alias: [ansj_index_analyzer]
type: ansj_index
user_path: ansj/user
ambiguity: ansj/ambiguity.dic
stop_path: ansj/stopLibrary.dic
redis:
pool:
maxactive: 20
maxidle: 10
maxwait: 100
testonborrow: true
ip: publish.redis.master.yao.com:6379
channel: ansj_term
query_ansj:
alias: [ansj_query_analyzer]
type: ansj_query
user_path: ansj/user
ambiguity: ansj/ambiguity.dic
stop_path: ansj/stopLibrary.dic
redis:
pool:
maxactive: 20
maxidle: 10
maxwait: 100
testonborrow: true
ip: publish.redis.master.yao.com:6379
channel: ansj_term

ansj插件地址: https://github.com/4onni/elasticsearch-analysis-ansj




问题解答

其实,这个问题,不是ES的BUG,其实是分词器的问题吧,

视丽 花样系列美瞳彩片  分词没有出现“ 美瞳彩”,而 花样系列美瞳彩片分词出现“ 美瞳彩”,最根本的问题出现在这里啊!
其实和有没有空格没有关系,query_string是会处理空格,3.5以前记着是处理为了and!但是这个的问题,我理解是分词器出现了问题!
其实你,
default_operator": "or",应该会出来!

还有就是\"的问题,加\"不是说把内容当成整体处理,加\"的功能是,queyparse将会把其按照pharsequery处理,同时默认的slop为0,说白了会把\"\",内容分词后,按照term匹配,然后将所有term减slop为0的检索出来!


同时,我们以前用 lucene时,空格都是自己处理的,比如将”
视丽 花样系列美瞳彩片“转化为 视丽 OR 花样系列美瞳彩片“

这篇关于在网上看到的关于es的querystring的问题,值得留意的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/351175

相关文章

MySQL 设置AUTO_INCREMENT 无效的问题解决

《MySQL设置AUTO_INCREMENT无效的问题解决》本文主要介绍了MySQL设置AUTO_INCREMENT无效的问题解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参... 目录快速设置mysql的auto_increment参数一、修改 AUTO_INCREMENT 的值。

关于跨域无效的问题及解决(java后端方案)

《关于跨域无效的问题及解决(java后端方案)》:本文主要介绍关于跨域无效的问题及解决(java后端方案),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录通用后端跨域方法1、@CrossOrigin 注解2、springboot2.0 实现WebMvcConfig

Go语言中泄漏缓冲区的问题解决

《Go语言中泄漏缓冲区的问题解决》缓冲区是一种常见的数据结构,常被用于在不同的并发单元之间传递数据,然而,若缓冲区使用不当,就可能引发泄漏缓冲区问题,本文就来介绍一下问题的解决,感兴趣的可以了解一下... 目录引言泄漏缓冲区的基本概念代码示例:泄漏缓冲区的产生项目场景:Web 服务器中的请求缓冲场景描述代码

Java死锁问题解决方案及示例详解

《Java死锁问题解决方案及示例详解》死锁是指两个或多个线程因争夺资源而相互等待,导致所有线程都无法继续执行的一种状态,本文给大家详细介绍了Java死锁问题解决方案详解及实践样例,需要的朋友可以参考下... 目录1、简述死锁的四个必要条件:2、死锁示例代码3、如何检测死锁?3.1 使用 jstack3.2

解决JSONField、JsonProperty不生效的问题

《解决JSONField、JsonProperty不生效的问题》:本文主要介绍解决JSONField、JsonProperty不生效的问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑... 目录jsONField、JsonProperty不生效javascript问题排查总结JSONField

github打不开的问题分析及解决

《github打不开的问题分析及解决》:本文主要介绍github打不开的问题分析及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、找到github.com域名解析的ip地址二、找到github.global.ssl.fastly.net网址解析的ip地址三

MySQL版本问题导致项目无法启动问题的解决方案

《MySQL版本问题导致项目无法启动问题的解决方案》本文记录了一次因MySQL版本不一致导致项目启动失败的经历,详细解析了连接错误的原因,并提供了两种解决方案:调整连接字符串禁用SSL或统一MySQL... 目录本地项目启动报错报错原因:解决方案第一个:第二种:容器启动mysql的坑两种修改时区的方法:本地

springboot加载不到nacos配置中心的配置问题处理

《springboot加载不到nacos配置中心的配置问题处理》:本文主要介绍springboot加载不到nacos配置中心的配置问题处理,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑... 目录springboot加载不到nacos配置中心的配置两种可能Spring Boot 版本Nacos

Java中JSON格式反序列化为Map且保证存取顺序一致的问题

《Java中JSON格式反序列化为Map且保证存取顺序一致的问题》:本文主要介绍Java中JSON格式反序列化为Map且保证存取顺序一致的问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未... 目录背景问题解决方法总结背景做项目涉及两个微服务之间传数据时,需要提供方将Map类型的数据序列化为co

如何解决Druid线程池Cause:java.sql.SQLRecoverableException:IO错误:Socket read timed out的问题

《如何解决Druid线程池Cause:java.sql.SQLRecoverableException:IO错误:Socketreadtimedout的问题》:本文主要介绍解决Druid线程... 目录异常信息触发场景找到版本发布更新的说明从版本更新信息可以看到该默认逻辑已经去除总结异常信息触发场景复