Lucene全文检索 luke查看工具查看索引 lk分词器

2023-11-08 17:40

本文主要是介绍Lucene全文检索 luke查看工具查看索引 lk分词器,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、 全文检索

1.1数据分类
结构化:数据库中的数据。存储数据有规律。
非结构化:数据存储无规律。
1.2数据搜索
顺序扫描法:例如:数据库无索引搜索、新华词典 “传播”
全文检索:索引 新华词典:基于拼音首字母或者偏旁部首。
1.3全文检索技术应用场景
1、 单机软件的搜索(word中的搜索)
2、 站内搜索 (天猫、 京东、 taobao)将来基本都是做站内搜索 (重要 未来从事方向)
3、 垂直领域的搜索 (豆丁、拉勾、100offer)
4、 专业搜索引擎公司 (google、百度)

mysql性能优化(面试题)
<1>Sql优化
<2>建立索引
<3>使用缓存(Solr) 
<4>数据库读写分离

2、Lucene简介

在这里插入图片描述

2.1Lucene简介 (工具包)
Lucene是java中全文检索技术底层。是一套工具包(jar)。不是搜索引擎(搜索服务器)。

Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎。
2.2Lucene底层原理倒排索引介绍
倒排索引:在这里插入图片描述

3、Lucene的API创建索引

Lucene全文检索技术操作的是非结构化数据。

1、 准备资源(相关jar包)
2、 创建maven工程 (jar工程即可)
3、 导入相关依赖jar
4、 编写代码,基于Lucene提供的API实现创建索引操作
在这里插入图片描述
在这里插入图片描述

4、luke查看工具查看索引

在这里插入图片描述
在这里插入图片描述
查看文档内容页面
在这里插入图片描述

5、Lucene的API查询索引

在这里插入图片描述
在这里插入图片描述

6、中文分词介绍

6.1 Ik分词器实现中文分词效果 *****
优势:1、很好的支持中英文分词
2、可以动态的扩展词汇和动态的停用词汇。
使用步骤:
1、 导入相关jar包
2、 导入配置文件
3、 基于ik分词器针对中文分词

7、Lucene其他查询方式演示(补充)

在这里插入图片描述
在这里插入图片描述

8、Lucene删除文档演示(补充)

在这里插入图片描述
总结:
1、 知道Lucene底层依赖的索引结构 倒排索引
2、 知道Lucene的常用API实现索引文档查询操作
3、 全文检索技术应用场景 站内搜索 商品搜索功能
4、 第三方中文分词器 ik分词器掌握 优势

这篇关于Lucene全文检索 luke查看工具查看索引 lk分词器的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/371446

相关文章

浅谈mysql的not exists走不走索引

《浅谈mysql的notexists走不走索引》在MySQL中,​NOTEXISTS子句是否使用索引取决于子查询中关联字段是否建立了合适的索引,下面就来介绍一下mysql的notexists走不走索... 在mysql中,​NOT EXISTS子句是否使用索引取决于子查询中关联字段是否建立了合适的索引。以下

Python办公自动化实战之打造智能邮件发送工具

《Python办公自动化实战之打造智能邮件发送工具》在数字化办公场景中,邮件自动化是提升工作效率的关键技能,本文将演示如何使用Python的smtplib和email库构建一个支持图文混排,多附件,多... 目录前言一、基础配置:搭建邮件发送框架1.1 邮箱服务准备1.2 核心库导入1.3 基础发送函数二、

基于Python实现一个图片拆分工具

《基于Python实现一个图片拆分工具》这篇文章主要为大家详细介绍了如何基于Python实现一个图片拆分工具,可以根据需要的行数和列数进行拆分,感兴趣的小伙伴可以跟随小编一起学习一下... 简单介绍先自己选择输入的图片,默认是输出到项目文件夹中,可以自己选择其他的文件夹,选择需要拆分的行数和列数,可以通过

Python使用pip工具实现包自动更新的多种方法

《Python使用pip工具实现包自动更新的多种方法》本文深入探讨了使用Python的pip工具实现包自动更新的各种方法和技术,我们将从基础概念开始,逐步介绍手动更新方法、自动化脚本编写、结合CI/C... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

Python使用OpenCV实现获取视频时长的小工具

《Python使用OpenCV实现获取视频时长的小工具》在处理视频数据时,获取视频的时长是一项常见且基础的需求,本文将详细介绍如何使用Python和OpenCV获取视频时长,并对每一行代码进行深入解析... 目录一、代码实现二、代码解析1. 导入 OpenCV 库2. 定义获取视频时长的函数3. 打开视频文

Mysql实现范围分区表(新增、删除、重组、查看)

《Mysql实现范围分区表(新增、删除、重组、查看)》MySQL分区表的四种类型(范围、哈希、列表、键值),主要介绍了范围分区的创建、查询、添加、删除及重组织操作,具有一定的参考价值,感兴趣的可以了解... 目录一、mysql分区表分类二、范围分区(Range Partitioning1、新建分区表:2、分

Linux中压缩、网络传输与系统监控工具的使用完整指南

《Linux中压缩、网络传输与系统监控工具的使用完整指南》在Linux系统管理中,压缩与传输工具是数据备份和远程协作的桥梁,而系统监控工具则是保障服务器稳定运行的眼睛,下面小编就来和大家详细介绍一下它... 目录引言一、压缩与解压:数据存储与传输的优化核心1. zip/unzip:通用压缩格式的便捷操作2.

MySQL之InnoDB存储引擎中的索引用法及说明

《MySQL之InnoDB存储引擎中的索引用法及说明》:本文主要介绍MySQL之InnoDB存储引擎中的索引用法及说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录1、背景2、准备3、正篇【1】存储用户记录的数据页【2】存储目录项记录的数据页【3】聚簇索引【4】二

sqlite3 命令行工具使用指南

《sqlite3命令行工具使用指南》本文系统介绍sqlite3CLI的启动、数据库操作、元数据查询、数据导入导出及输出格式化命令,涵盖文件管理、备份恢复、性能统计等实用功能,并说明命令分类、SQL语... 目录一、启动与退出二、数据库与文件操作三、元数据查询四、数据操作与导入导出五、查询输出格式化六、实用功

全面解析MySQL索引长度限制问题与解决方案

《全面解析MySQL索引长度限制问题与解决方案》MySQL对索引长度设限是为了保持高效的数据检索性能,这个限制不是MySQL的缺陷,而是数据库设计中的权衡结果,下面我们就来看看如何解决这一问题吧... 目录引言:为什么会有索引键长度问题?一、问题根源深度解析mysql索引长度限制原理实际场景示例二、五大解决