由 Elasticsearch 空间换时间的线上问题说开去......

本文主要是介绍由 Elasticsearch 空间换时间的线上问题说开去......，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1、线上实战问题

请教一下各位朋友，关于 ngram 的 slop 影响搜索结果？

1、前置条件：

商品A的SPUCodeText为：OWBB050C99JER0021001
商品B的SPUCodeText为：VSA00293ABBLACKFW2022
商品C的SPUCodeText为：2WHGG0VNT03HHFC99FW2022

2、现况：搜索商品A的SPUCodeText编码：OWBB050，slop设置为49-54无法查询出该商品；slop设置为55及其以上的值，才可以查询出商品A；

3、追求目标：搜索SPUCodeText任意一组4个数字及其以上的组合，即可查询出该商品？

篇幅原因，省去了 DSL 定义和查询语句。

——题目来源：死磕Elasticsearch 知识星球https://t.zsxq.com/08rmVBnhA

2、问题释义

大前提：商品码的存储类似之前咱们视频讲过的手机号的存储，传统的分词器（默认的 standard、中文的 ik_max_word 等）都无法搞定。

需要借助于 Ngram 自定义分词实现。

那么问题来了：Ngram 分词后的数据，用 match_phrase + slop 检索出现了问题，必须 slop 设置很大才可以搞定！

什么原因导致的呢？有没有更为简洁的方法？

3、Elasticsearch 空间换时间

啥叫空间换时间，拿当下世界杯的例子一看就明白。

如下解说员说的：“15人才能打赢”。15人比正常的11人远多4人，这就是多了空间，而换取了时间或结果。当然，比赛事实远非解说员所说。

Elasticsearch 中 Ngram 分词本质就是空间换时间的方式，以极小的粒度切分文档，空间存储激增、写入速度会受到影响，但换来了检索效率的提升！

4、精简问题后的实现

PUT /products-001
{"settings": {"max_ngram_diff": 40,"analysis": {"analyzer": {"ruishan_ngram_analyzer": {"filter": ["lowercase"],"type": "custom","tokenizer": "ruishan_ngram_tokenizer"}},"tokenizer": {"ruishan_ngram_tokenizer": {"token_chars": ["letter","digit"],"min_gram": 3,"type": "ngram","max_gram": 40}}}},"mappings": {"properties" : {"id" : {"type" : "keyword"},"sPUCodeText" : {"type" : "text","analyzer" : "ruishan_ngram_analyzer"}}}
}PUT products-001/_bulk
{"index":{"_id":1}}
{"id":1,"sPUCodeText":"OWBB050C99JER0021001"}
{"index":{"_id":2}}
{"id":2,"sPUCodeText":"VSA00293ABBLACKFW2022"}
{"index":{"_id":3}}
{"id":3,"sPUCodeText":"2WHGG0VNT03HHFC99FW2022"}GET products-001/_search
{"query": {"bool": {"must": [{"match": {"sPUCodeText": {"query": "OWBB050"}}}]}}
}

看如下结果，一个 match 就可以搞定了！

再来，match_phrase 可以不？

那么match_phrase 加上较大的 slop 呢？能搞定吗？！

经反复测验，需要slop 至少设置 52 才可以搞定，如下所示。

为什么呢？为什么是 52 呢？

5、match_phrase 短语匹配检索的本质？

通俗点说：query 部分待检索语句（如开篇：OWBB050）的分词结果要和文档（如：OWBB050C99JER0021001）中的分词结果顺序和位次完全一致才可以！

可以通过 analyzer api 查看分词结果，如下所示：

POST products-001/_analyze
{"field": "sPUCodeText","text": ["OWBB050C99JER0021001"]
}

分词后的词项单元，“OWBB050”如下图左侧所示，“OWBB050C99JER0021001”如下图右侧所示。

两者并不一致，这是导致无法匹配的原因，也就是有偏差！

6、match_phrase 短语检索下参数 slop 本质

一个图彻底搞明白！

相同颜色代表：待检索词和源文档中分词结果一样的词项。

最大差值的计算方法，比如：分词后的词项“050”，在待检索词中位次为 15，在源文档“OWBB050C99JER0021001”为67。

差了：67-15=52。

所以，slop 补齐这个最大的差值 52，就可以实现检索和数据的召回！

slop 设置为 51，就不可以！至少 52 或者52以上才可以召回数据。

7、小结

类似 Ngram 分词后，我们已经在空间层面下足了功夫！就没必要时间层面、检索层面下功夫了！

直接 match 检索必然能检索到结果！

如上的写法 filter 是可以走缓存的，推荐使用。

那，有没有更快的写法呢？

仔细的同学会发现，“OWBB05”都变成小写“owbb05”才可以召回数据，而直接大写直接 term 检索无法召回数据！

为什么呢？留给大家留言思考！

由 Elasticsearch 空间换时间的线上问题说开去......

1、线上实战问题

2、问题释义

3、Elasticsearch 空间换时间

4、精简问题后的实现

5、match_phrase 短语匹配检索的本质？

6、match_phrase 短语检索下参数 slop 本质

7、小结

推荐阅读

相关文章

IDEA和GIT关于文件中LF和CRLF问题及解决

idea npm install很慢问题及解决(nodejs)

pycharm跑python项目易出错的问题总结

idea突然报错Malformed \uxxxx encoding问题及解决

Python爬虫HTTPS使用requests,httpx,aiohttp实战中的证书异步等问题

前端导出Excel文件出现乱码或文件损坏问题的解决办法

Python绘制TSP、VRP问题求解结果图全过程

MyBatis/MyBatis-Plus同事务循环调用存储过程获取主键重复问题分析及解决

java时区时间转为UTC的代码示例和详细解释

MySQL8.0临时表空间的使用及解读