Lucene全文检索 luke查看工具查看索引 lk分词器

2023-11-08 17:40

本文主要是介绍Lucene全文检索 luke查看工具查看索引 lk分词器,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、 全文检索

1.1数据分类
结构化:数据库中的数据。存储数据有规律。
非结构化:数据存储无规律。
1.2数据搜索
顺序扫描法:例如:数据库无索引搜索、新华词典 “传播”
全文检索:索引 新华词典:基于拼音首字母或者偏旁部首。
1.3全文检索技术应用场景
1、 单机软件的搜索(word中的搜索)
2、 站内搜索 (天猫、 京东、 taobao)将来基本都是做站内搜索 (重要 未来从事方向)
3、 垂直领域的搜索 (豆丁、拉勾、100offer)
4、 专业搜索引擎公司 (google、百度)

mysql性能优化(面试题)
<1>Sql优化
<2>建立索引
<3>使用缓存(Solr) 
<4>数据库读写分离

2、Lucene简介

在这里插入图片描述

2.1Lucene简介 (工具包)
Lucene是java中全文检索技术底层。是一套工具包(jar)。不是搜索引擎(搜索服务器)。

Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎。
2.2Lucene底层原理倒排索引介绍
倒排索引:在这里插入图片描述

3、Lucene的API创建索引

Lucene全文检索技术操作的是非结构化数据。

1、 准备资源(相关jar包)
2、 创建maven工程 (jar工程即可)
3、 导入相关依赖jar
4、 编写代码,基于Lucene提供的API实现创建索引操作
在这里插入图片描述
在这里插入图片描述

4、luke查看工具查看索引

在这里插入图片描述
在这里插入图片描述
查看文档内容页面
在这里插入图片描述

5、Lucene的API查询索引

在这里插入图片描述
在这里插入图片描述

6、中文分词介绍

6.1 Ik分词器实现中文分词效果 *****
优势:1、很好的支持中英文分词
2、可以动态的扩展词汇和动态的停用词汇。
使用步骤:
1、 导入相关jar包
2、 导入配置文件
3、 基于ik分词器针对中文分词

7、Lucene其他查询方式演示(补充)

在这里插入图片描述
在这里插入图片描述

8、Lucene删除文档演示(补充)

在这里插入图片描述
总结:
1、 知道Lucene底层依赖的索引结构 倒排索引
2、 知道Lucene的常用API实现索引文档查询操作
3、 全文检索技术应用场景 站内搜索 商品搜索功能
4、 第三方中文分词器 ik分词器掌握 优势

这篇关于Lucene全文检索 luke查看工具查看索引 lk分词器的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/371446

相关文章

Python实战之SEO优化自动化工具开发指南

《Python实战之SEO优化自动化工具开发指南》在数字化营销时代,搜索引擎优化(SEO)已成为网站获取流量的重要手段,本文将带您使用Python开发一套完整的SEO自动化工具,需要的可以了解下... 目录前言项目概述技术栈选择核心模块实现1. 关键词研究模块2. 网站技术seo检测模块3. 内容优化分析模

Linux实现查看某一端口是否开放

《Linux实现查看某一端口是否开放》文章介绍了三种检查端口6379是否开放的方法:通过lsof查看进程占用,用netstat区分TCP/UDP监听状态,以及用telnet测试远程连接可达性... 目录1、使用lsof 命令来查看端口是否开放2、使用netstat 命令来查看端口是否开放3、使用telnet

MySQL慢查询工具的使用小结

《MySQL慢查询工具的使用小结》使用MySQL的慢查询工具可以帮助开发者识别和优化性能不佳的SQL查询,本文就来介绍一下MySQL的慢查询工具,具有一定的参考价值,感兴趣的可以了解一下... 目录一、启用慢查询日志1.1 编辑mysql配置文件1.2 重启MySQL服务二、配置动态参数(可选)三、分析慢查

MySQL的触发器全解析(创建、查看触发器)

《MySQL的触发器全解析(创建、查看触发器)》MySQL触发器是与表关联的存储程序,当INSERT/UPDATE/DELETE事件发生时自动执行,用于维护数据一致性、日志记录和校验,优点包括自动执行... 目录触发器的概念:创建触www.chinasem.cn发器:查看触发器:查看当前数据库的所有触发器的定

基于Python实现进阶版PDF合并/拆分工具

《基于Python实现进阶版PDF合并/拆分工具》在数字化时代,PDF文件已成为日常工作和学习中不可或缺的一部分,本文将详细介绍一款简单易用的PDF工具,帮助用户轻松完成PDF文件的合并与拆分操作... 目录工具概述环境准备界面说明合并PDF文件拆分PDF文件高级技巧常见问题完整源代码总结在数字化时代,PD

MySQL 索引简介及常见的索引类型有哪些

《MySQL索引简介及常见的索引类型有哪些》MySQL索引是加速数据检索的特殊结构,用于存储列值与位置信息,常见的索引类型包括:主键索引、唯一索引、普通索引、复合索引、全文索引和空间索引等,本文介绍... 目录什么是 mysql 的索引?常见的索引类型有哪些?总结性回答详细解释1. MySQL 索引的概念2

Python按照24个实用大方向精选的上千种工具库汇总整理

《Python按照24个实用大方向精选的上千种工具库汇总整理》本文整理了Python生态中近千个库,涵盖数据处理、图像处理、网络开发、Web框架、人工智能、科学计算、GUI工具、测试框架、环境管理等多... 目录1、数据处理文本处理特殊文本处理html/XML 解析文件处理配置文件处理文档相关日志管理日期和

使用Python开发一个Ditto剪贴板数据导出工具

《使用Python开发一个Ditto剪贴板数据导出工具》在日常工作中,我们经常需要处理大量的剪贴板数据,下面将介绍如何使用Python的wxPython库开发一个图形化工具,实现从Ditto数据库中读... 目录前言运行结果项目需求分析技术选型核心功能实现1. Ditto数据库结构分析2. 数据库自动定位3

Oracle查询表结构建表语句索引等方式

《Oracle查询表结构建表语句索引等方式》使用USER_TAB_COLUMNS查询表结构可避免系统隐藏字段(如LISTUSER的CLOB与VARCHAR2同名字段),这些字段可能为dbms_lob.... 目录oracle查询表结构建表语句索引1.用“USER_TAB_COLUMNS”查询表结构2.用“a

Linux如何查看文件权限的命令

《Linux如何查看文件权限的命令》Linux中使用ls-R命令递归查看指定目录及子目录下所有文件和文件夹的权限信息,以列表形式展示权限位、所有者、组等详细内容... 目录linux China编程查看文件权限命令输出结果示例这里是查看tomcat文件夹总结Linux 查看文件权限命令ls -l 文件或文件夹