使用tf*idf实现对文档集合的检索

2024-06-23 06:58

本文主要是介绍使用tf*idf实现对文档集合的检索,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

步骤:

  1. 读取三篇文档1.txt,2.txt,3.txt,里边的内容分别为“this is php”,“this is html html”,“this is java”

  2. 分词,并统计词频tf

  3. 计算文档频率df

  4. 计算每篇文档的特征向量

  5. 计算搜索词与文档的夹角余弦值

    <?php$_txts = array('1.txt','2.txt','3.txt');$_len = count($_txts);for ($i = 0;$i < $_len;$i++){$_contents[] = file_get_contents($_txts[$i]);   //读取内容}for ($i = 0;$i < $_len;$i++){//分词$_words[] = explode(' ',trim($_contents[$i]));foreach ($_words[$i] as $_key=>$_value){$_value = trim($_value);$_value = preg_replace('/[.|,|(|)|-|;]/','',$_value);$_words[$i][$_key]=strtolower($_value);}//统计文档所有词的长度,一般计算tf需要除以这个值,为了简便,本次试验省去这步//$_words_count[]=count($_words[$i]);//词频tf$_tf[] = array_count_values($_words[$i]);//去重$_words[$i]= array_unique($_words[$i]);} //合并$_words_com = array_merge($_words[0],$_words[1],$_words[2]);//文档频率$_df = array_count_values($_words_com);//特征向量for ($i = 0;$i < $_len;$i++){//初始化,与文档频率的维度相同$_vsm[$i] = $_df;//把每个维度的值设置为0foreach($_vsm[$i] as $_key=>$_value){$_vsm[$i][$_key] = 0;}for ($j=0;$j<count($_words[$i]);$j++){if (in_array($_words[$i][$j],$_words_com)){$_vsm[$i][($_words[$i][$j])] = ($_tf[$i][($_words[$i][$j])])*(log($_len/$_df[($_words[$i][$j])]));} }} for($i = 0;$i < count($_vsm); $i++){echo '第'.($i+1).'篇文档的特征向量: ('. implode(",",$_vsm[$i]).')<br/>';}//测试$_query = 'java';$_vsm_que = $_df;foreach($_vsm_que as $_key=>$_value){$_vsm_que[$_key] = 0;}if (in_array($_query,$_vsm_que)){$_vsm_que[$_query] = 1;}for ($i = 0; $i < count($_vsm); $i++){foreach($_vsm_que as $_key=>$_value){$_sim[$i] += ($_vsm[$i][$_key]) * ($_vsm_que[$_key]);$_w1 += pow($_vsm_que[$_key],2);$_w2 += pow($_vsm[$i][$_key],2);}//求夹角余弦值,相似度计算$_cos[$i] = $_sim[$i]/(sqrt($_w1)*sqrt($_w2));echo '<br/>';echo '第'.($i+1).'篇文档的相似度:'.$_cos[$i];}arsort($_cos);foreach($_cos as $_key=>$_value){echo '<br/><br/>';echo '最符合的结果为第'.($_key+1).'篇文档';break;}
    ?>

    在浏览器运行的结果:


    第1篇文档的特征向量: (0,0,1.09861228867,0,0)
    第2篇文档的特征向量: (0,0,0,2.19722457734,0)
    第3篇文档的特征向量: (0,0,0,0,1.09861228867)

    第1篇文档的相似度:0
    第2篇文档的相似度:0
    第3篇文档的相似度:0.235702260396

    最符合的结果为第3篇文档


这篇关于使用tf*idf实现对文档集合的检索的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/1086452

相关文章

C++中assign函数的使用

《C++中assign函数的使用》在C++标准模板库中,std::list等容器都提供了assign成员函数,它比操作符更灵活,支持多种初始化方式,下面就来介绍一下assign的用法,具有一定的参考价... 目录​1.assign的基本功能​​语法​2. 具体用法示例​​​(1) 填充n个相同值​​(2)

Spring StateMachine实现状态机使用示例详解

《SpringStateMachine实现状态机使用示例详解》本文介绍SpringStateMachine实现状态机的步骤,包括依赖导入、枚举定义、状态转移规则配置、上下文管理及服务调用示例,重点解... 目录什么是状态机使用示例什么是状态机状态机是计算机科学中的​​核心建模工具​​,用于描述对象在其生命

Spring Boot 结合 WxJava 实现文章上传微信公众号草稿箱与群发

《SpringBoot结合WxJava实现文章上传微信公众号草稿箱与群发》本文将详细介绍如何使用SpringBoot框架结合WxJava开发工具包,实现文章上传到微信公众号草稿箱以及群发功能,... 目录一、项目环境准备1.1 开发环境1.2 微信公众号准备二、Spring Boot 项目搭建2.1 创建

IntelliJ IDEA2025创建SpringBoot项目的实现步骤

《IntelliJIDEA2025创建SpringBoot项目的实现步骤》本文主要介绍了IntelliJIDEA2025创建SpringBoot项目的实现步骤,文中通过示例代码介绍的非常详细,对大家... 目录一、创建 Spring Boot 项目1. 新建项目2. 基础配置3. 选择依赖4. 生成项目5.

使用Python删除Excel中的行列和单元格示例详解

《使用Python删除Excel中的行列和单元格示例详解》在处理Excel数据时,删除不需要的行、列或单元格是一项常见且必要的操作,本文将使用Python脚本实现对Excel表格的高效自动化处理,感兴... 目录开发环境准备使用 python 删除 Excphpel 表格中的行删除特定行删除空白行删除含指定

深入理解Go语言中二维切片的使用

《深入理解Go语言中二维切片的使用》本文深入讲解了Go语言中二维切片的概念与应用,用于表示矩阵、表格等二维数据结构,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起学习学习吧... 目录引言二维切片的基本概念定义创建二维切片二维切片的操作访问元素修改元素遍历二维切片二维切片的动态调整追加行动态

Linux下删除乱码文件和目录的实现方式

《Linux下删除乱码文件和目录的实现方式》:本文主要介绍Linux下删除乱码文件和目录的实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录linux下删除乱码文件和目录方法1方法2总结Linux下删除乱码文件和目录方法1使用ls -i命令找到文件或目录

prometheus如何使用pushgateway监控网路丢包

《prometheus如何使用pushgateway监控网路丢包》:本文主要介绍prometheus如何使用pushgateway监控网路丢包问题,具有很好的参考价值,希望对大家有所帮助,如有错误... 目录监控网路丢包脚本数据图表总结监控网路丢包脚本[root@gtcq-gt-monitor-prome

SpringBoot+EasyExcel实现自定义复杂样式导入导出

《SpringBoot+EasyExcel实现自定义复杂样式导入导出》这篇文章主要为大家详细介绍了SpringBoot如何结果EasyExcel实现自定义复杂样式导入导出功能,文中的示例代码讲解详细,... 目录安装处理自定义导出复杂场景1、列不固定,动态列2、动态下拉3、自定义锁定行/列,添加密码4、合并

mybatis执行insert返回id实现详解

《mybatis执行insert返回id实现详解》MyBatis插入操作默认返回受影响行数,需通过useGeneratedKeys+keyProperty或selectKey获取主键ID,确保主键为自... 目录 两种方式获取自增 ID:1. ​​useGeneratedKeys+keyProperty(推