【java、lucene、python】互联网搜索引擎课程报告二:建立搜索引擎

2024-06-10 06:36

本文主要是介绍【java、lucene、python】互联网搜索引擎课程报告二:建立搜索引擎,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、项目要求

  1. 建立并实现文本搜索功能
  1. 对经过预处理后的500个英文和中文文档/网页建立搜索并实现搜索功能
  2. 对文档建立索引,然后通过前台界面或者已提供的界面,输入关键字,展示搜索结果
  3. 前台可通过网页形式、应用程序形式、或者利用已有的界面工具显示
  4. 实现英文搜索及中文搜索功能
  1. 比较文档之间的相似度

通过余弦距离计算任意两个文档之间的相似度,列出文档原文,并给出相似

度值。

  1. 对下载的文档,利用K-Means聚类算法进行聚类
  1. 将下载的500个中文/英文文档聚为20个类,并显示聚类之后所形成的三个最大的类,及每个类中代表性的文档(即,离类中心最近的五个文档)
  2. 距离计算公式,可采用余弦距离,也可用欧式距离

二、开发环境

系统:windows 10 

开发语言:JAVA,python

开发工具:IDEA,pycharm

三、项目实现

  使用开源搜索引擎Lucene对经过预处理后的500个英文和中文文档建立索引,并实现搜索功能,然后通过前台界面,输入关键字,展示搜索结果。支持英文搜索及中文搜索功能。

一、搜索引擎

1.建立索引

建立索引时,使用IK Analyzer分词器,每个文档(document)有三个域,content对应文档内容,fileName对应文档名,filePath对应文档路径。

2.搜索

由于用Luke进行搜索时不能使用IK Analyzer分词器,中文只能单字分词,搜索结果不准确。故自行编码实现搜索功能,前台界面利用JAVA的awt库进行设计。因为只实现搜索功能,前台界面设计得比较简单,居中的上方是关键词输入框,下方依次是选择检索中文还是英文文档的单选框和搜索结果文本显示框。输入关键词后,按下回车,就会显示搜索结果,第一行是搜索到的文档数。

二、比较文档之间的相似度

通过余弦距离(Cosine Distance)计算任意两个文档之间的相似度,列出文档原文,并给出相似度值。

计算文本相似度的思路:1、分词;2、列出所有的词;3、计算词频;4、向量化;5、用公式计算相似度(余弦值)。余弦值接近1,夹角趋于0,表明两个向量越相似,余弦值接近于0,夹角趋于90度,表明两个向量越不相似。

前台界面利用JAVA的awt库进行设计。分别输入两个文档的编号,回车后下方的两个文本区域会显示文档的内容。下方的单选框可以选择比较中文还是英文文档。点击下方的calculate the similarity的按钮,按钮上方的文本框会显示相似度值。

三、利用K-Means聚类算法进行聚类

利用K-Means聚类算法进行聚类将下载的500个中文/英文文档聚为20个类,并显示聚类之后所形成的三个最大的类,及每个类中代表性的文档(即,离类中心最近的五个文档)。将文档分别聚类成不同数量的类,如:5、10、25、50等,比较聚类结果的异同与变化。

K-Means聚类算法的前几个步骤与计算文本相似度的思路的相似,即对文本分词、列出所有的词、计算词频、向量化,只是这里处理的文档不再是2个文档,而是500个文档(文档已经预处理过)。

然后给定一个数k,表示聚类的数目,随机选取k个样本作为初始的聚类中心。计算每个文档与k个聚类中心的距离(这里使用的余弦距离,值越接近1表示越接近),将每个文档分配给距离它最近的聚类中心。

接着,计算每个聚类中所有向量每个坐标的平均值,计算出一个“质心”,作为新的聚类中心。

最后,进行迭代,对每个文档重新计算距离并分配到最近的聚类。通过判断每个聚类中心有无变化,决定是否停止迭代。迭代结束时,可以得到k个聚类中心的值,每类中所有文档序号及对应余弦距离。根据这些信息,经过筛选和排序,可以找到形成的三个最大的类,及每个类中代表性的文档。

 上面为部分说明,完整报告请见:

参考

【黑马程序员Lucene全文检索技术,从底层到实战应用Lucene全套教程】 https://www.bilibili.com/video/BV1eJ411q7nw/?p=23&share_source=copy_web&vd_source=9332b8fc5ea8d349a54c3989f6189fd3

文档预处理:

前一个报告:

https://download.csdn.net/download/qq_61814350/89207414?spm=1001.2014.3001.5503

Lucene的api使用、环境搭建(最多看到前24个视频就可以,下载他提供的配套资料,很方便):

【黑马程序员Lucene全文检索技术,从底层到实战应用Lucene全套教程】

https://www.bilibili.com/video/BV1eJ411q7nw/?p=24&share_source=copy_web&vd_source=9332b8fc5ea8d349a54c3989f6189fd3

java界面设计(容器、按钮、输入框、事件监听,最多看到P13):

【【狂神说Java】GUI编程入门到游戏实战】

https://www.bilibili.com/video/BV1DJ411B75F/?share_source=copy_web&vd_source=9332b8fc5ea8d349a54c3989f6189fd3

余弦距离、TF-IDF:

https://blog.csdn.net/m0_37739193/article/details/119335260

https://blog.csdn.net/wxgxgp/article/details/104146034

https://blog.csdn.net/qq_63159704/article/details/132846060

kmeans理论讲解:

【k-means kmeans聚类算法 清晰解释(带算例)】

https://www.bilibili.com/video/BV1V44y1u7mJ/?share_source=copy_web&vd_source=9332b8fc5ea8d349a54c3989f6189fd3

kmeans代码实现:

https://www.cnblogs.com/zuixime0515/p/9604034.html

python、numpy:

哪里不会再查,看菜鸟教程。

java:

去除空格、标点符号

https://blog.csdn.net/chen134225/article/details/103104392

java- File类的常用方法:遍历目录里的文件

https://blog.csdn.net/u014217137/article/details/128044606

这篇关于【java、lucene、python】互联网搜索引擎课程报告二:建立搜索引擎的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1047434

相关文章

Django开发时如何避免频繁发送短信验证码(python图文代码)

《Django开发时如何避免频繁发送短信验证码(python图文代码)》Django开发时,为防止频繁发送验证码,后端需用Redis限制请求频率,结合管道技术提升效率,通过生产者消费者模式解耦业务逻辑... 目录避免频繁发送 验证码1. www.chinasem.cn避免频繁发送 验证码逻辑分析2. 避免频繁

分布式锁在Spring Boot应用中的实现过程

《分布式锁在SpringBoot应用中的实现过程》文章介绍在SpringBoot中通过自定义Lock注解、LockAspect切面和RedisLockUtils工具类实现分布式锁,确保多实例并发操作... 目录Lock注解LockASPect切面RedisLockUtils工具类总结在现代微服务架构中,分布

Java使用Thumbnailator库实现图片处理与压缩功能

《Java使用Thumbnailator库实现图片处理与压缩功能》Thumbnailator是高性能Java图像处理库,支持缩放、旋转、水印添加、裁剪及格式转换,提供易用API和性能优化,适合Web应... 目录1. 图片处理库Thumbnailator介绍2. 基本和指定大小图片缩放功能2.1 图片缩放的

精选20个好玩又实用的的Python实战项目(有图文代码)

《精选20个好玩又实用的的Python实战项目(有图文代码)》文章介绍了20个实用Python项目,涵盖游戏开发、工具应用、图像处理、机器学习等,使用Tkinter、PIL、OpenCV、Kivy等库... 目录① 猜字游戏② 闹钟③ 骰子模拟器④ 二维码⑤ 语言检测⑥ 加密和解密⑦ URL缩短⑧ 音乐播放

python panda库从基础到高级操作分析

《pythonpanda库从基础到高级操作分析》本文介绍了Pandas库的核心功能,包括处理结构化数据的Series和DataFrame数据结构,数据读取、清洗、分组聚合、合并、时间序列分析及大数据... 目录1. Pandas 概述2. 基本操作:数据读取与查看3. 索引操作:精准定位数据4. Group

Python pandas库自学超详细教程

《Pythonpandas库自学超详细教程》文章介绍了Pandas库的基本功能、安装方法及核心操作,涵盖数据导入(CSV/Excel等)、数据结构(Series、DataFrame)、数据清洗、转换... 目录一、什么是Pandas库(1)、Pandas 应用(2)、Pandas 功能(3)、数据结构二、安

Spring Boot集成/输出/日志级别控制/持久化开发实践

《SpringBoot集成/输出/日志级别控制/持久化开发实践》SpringBoot默认集成Logback,支持灵活日志级别配置(INFO/DEBUG等),输出包含时间戳、级别、类名等信息,并可通过... 目录一、日志概述1.1、Spring Boot日志简介1.2、日志框架与默认配置1.3、日志的核心作用

Python使用Tenacity一行代码实现自动重试详解

《Python使用Tenacity一行代码实现自动重试详解》tenacity是一个专为Python设计的通用重试库,它的核心理念就是用简单、清晰的方式,为任何可能失败的操作添加重试能力,下面我们就来看... 目录一切始于一个简单的 API 调用Tenacity 入门:一行代码实现优雅重试精细控制:让重试按我

破茧 JDBC:MyBatis 在 Spring Boot 中的轻量实践指南

《破茧JDBC:MyBatis在SpringBoot中的轻量实践指南》MyBatis是持久层框架,简化JDBC开发,通过接口+XML/注解实现数据访问,动态代理生成实现类,支持增删改查及参数... 目录一、什么是 MyBATis二、 MyBatis 入门2.1、创建项目2.2、配置数据库连接字符串2.3、入

Springboot项目启动失败提示找不到dao类的解决

《Springboot项目启动失败提示找不到dao类的解决》SpringBoot启动失败,因ProductServiceImpl未正确注入ProductDao,原因:Dao未注册为Bean,解决:在启... 目录错误描述原因解决方法总结***************************APPLICA编