elasticsearch 安装 ik中文分词器

2024-08-22 16:08

本文主要是介绍elasticsearch 安装 ik中文分词器,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1,下载ik分词器,根据自己es的版本下载对应的版本
下载地址:
https://github.com/medcl/elasticsearch-analysis-ik

我这里是使用的6.2.1版本,直接下载就可以了

wget https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.2.1/elasticsearch-analysis-ik-6.2.1.zip

zip包里面的文件结构如下:
在这里插入图片描述
备注:
如果是下载的其他版本可能没有上面结构图的包,这个时候需要先解压压缩包,进入文件目录,然后本地在使用mvn命令打个包即可,打包命令(如果没有安装maven的请自行百度安装):

mvn package

打包完成后在 \target\releases 目录下就能够看到相同的文件结构了
在这里插入图片描述

config文件夹里面的内容是分词器分词时读取文件的主要目录,大概说说里面的各文件内容

在这里插入图片描述

  1. IKAnalyzer.cfg.xml:用来配置自定义词库
  2. main.dic:ik原生内置的中文词库,总共有27万多条,只要是这些单词,都会被分在一起
  3. quantifier.dic:放了一些单位相关的词
  4. suffix.dic:放了一些后缀
  5. surname.dic:中国的姓氏
  6. stopword.dic:英文停用词
ik原生最重要的两个配置文件
  1. main.dic:包含了原生的中文词语,会按照这个里面的词语去分词
  2. stopword.dic:包含了英文的停用词

2,解压 elasticsearch-analysis-ik-6.2.1.zip

unzip elasticsearch-analysis-ik-6.2.1.zip

便于区分修改解压后的文件夹名称为 elasticsearch-analysis-ik-6.2.1

mv elasticsearch elasticsearch-analysis-ik-6.2.1

3,将解压后的文件夹移动到es的plugins目录下

mv elasticsearch-analysis-ik-6.2.1 /usr/local/elasticsearch-6.2.1/plugins/

4,重启es

5,ik 分词器测试
假如我们直接使用 standard 对中文进行分词看看有什么效果,执行如下语句

{"text": "string是基本数据类型吗","analyzer": "standard"
}

结果:
在这里插入图片描述
很明显,被分成了一个个单一的词,显然这并不是我们想要的效果,因为单个词汇在文档搜索中意义并不大

安装了中文分词器后,我们再来做如下测试,运行如下语句,指定ik分词器:

{"text": "string是基本数据类型吗","analyzer": "ik_max_word"
}

结果:
在这里插入图片描述
这时候IK分词器将我们的一段句子拆分成了不同长度的词汇,看起来合理多了

最后在使用ik分词器搜索一下数据,看看是不是想要的结果
在这里插入图片描述
可以看到这个时候就已经按照问我们想要的分词结果查询出来了数据,到此,大功告成

es各个搜索条件含义:

match 搜索key会被分词,搜索的filed中的值是分了词,然后再匹配
term 精确匹配输入的参数(不使用分析器)
wildcard 没用过
prefix 前缀匹配
fuzzy 模糊匹配
range 范围匹配 匹配数值类型,比如说对于用户样本搜索,年龄范围在20~30之间的,就用range。
query_string 查询text类型的字段
text 文本类型,文本类型可以设置分词器属性
missing 是否存在该字段值 和exists反义

这篇关于elasticsearch 安装 ik中文分词器的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1096744

相关文章

python依赖管理工具UV的安装和使用教程

《python依赖管理工具UV的安装和使用教程》UV是一个用Rust编写的Python包安装和依赖管理工具,比传统工具(如pip)有着更快、更高效的体验,:本文主要介绍python依赖管理工具UV... 目录前言一、命令安装uv二、手动编译安装2.1在archlinux安装uv的依赖工具2.2从github

JDK8(Java Development kit)的安装与配置全过程

《JDK8(JavaDevelopmentkit)的安装与配置全过程》文章简要介绍了Java的核心特点(如跨平台、JVM机制)及JDK/JRE的区别,重点讲解了如何通过配置环境变量(PATH和JA... 目录Java特点JDKJREJDK的下载,安装配置环境变量总结Java特点说起 Java,大家肯定都

Python实现中文大写金额转阿拉伯数字

《Python实现中文大写金额转阿拉伯数字》在财务票据中,中文大写金额被广泛使用以防止篡改,但在数据处理时,我们需要将其转换为阿拉伯数字形式,下面我们就来看看如何使用Python实现这一转换吧... 目录一、核心思路拆解二、中文数字解析实现三、大单位分割策略四、元角分综合处理五、测试验证六、全部代码在财务票

RabbitMQ 延时队列插件安装与使用示例详解(基于 Delayed Message Plugin)

《RabbitMQ延时队列插件安装与使用示例详解(基于DelayedMessagePlugin)》本文详解RabbitMQ通过安装rabbitmq_delayed_message_exchan... 目录 一、什么是 RabbitMQ 延时队列? 二、安装前准备✅ RabbitMQ 环境要求 三、安装延时队

linux系统上安装JDK8全过程

《linux系统上安装JDK8全过程》文章介绍安装JDK的必要性及Linux下JDK8的安装步骤,包括卸载旧版本、下载解压、配置环境变量等,强调开发需JDK,运行可选JRE,现JDK已集成JRE... 目录为什么要安装jdk?1.查看linux系统是否有自带的jdk:2.下载jdk压缩包2.解压3.配置环境

Python库 Django 的简介、安装、用法入门教程

《Python库Django的简介、安装、用法入门教程》Django是Python最流行的Web框架之一,它帮助开发者快速、高效地构建功能强大的Web应用程序,接下来我们将从简介、安装到用法详解,... 目录一、Django 简介 二、Django 的安装教程 1. 创建虚拟环境2. 安装Django三、创

linux安装、更新、卸载anaconda实践

《linux安装、更新、卸载anaconda实践》Anaconda是基于conda的科学计算环境,集成1400+包及依赖,安装需下载脚本、接受协议、设置路径、配置环境变量,更新与卸载通过conda命令... 目录随意找一个目录下载安装脚本检查许可证协议,ENTER就可以安装完毕之后激活anaconda安装更

Jenkins的安装与简单配置过程

《Jenkins的安装与简单配置过程》本文简述Jenkins在CentOS7.3上安装流程,包括Java环境配置、RPM包安装、修改JENKINS_HOME路径及权限、启动服务、插件安装与系统管理设置... 目录www.chinasem.cnJenkins安装访问并配置JenkinsJenkins配置邮件通知

Win10安装Maven与环境变量配置过程

《Win10安装Maven与环境变量配置过程》本文介绍Maven的安装与配置方法,涵盖下载、环境变量设置、本地仓库及镜像配置,指导如何在IDEA中正确配置Maven,适用于Java及其他语言项目的构建... 目录Maven 是什么?一、下载二、安装三、配置环境四、验证测试五、配置本地仓库六、配置国内镜像地址

Python安装Pandas库的两种方法

《Python安装Pandas库的两种方法》本文介绍了三种安装PythonPandas库的方法,通过cmd命令行安装并解决版本冲突,手动下载whl文件安装,更换国内镜像源加速下载,最后建议用pipli... 目录方法一:cmd命令行执行pip install pandas方法二:找到pandas下载库,然后