使用tf*idf实现对文档集合的检索

2024-06-23 06:58

本文主要是介绍使用tf*idf实现对文档集合的检索,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

步骤:

  1. 读取三篇文档1.txt,2.txt,3.txt,里边的内容分别为“this is php”,“this is html html”,“this is java”

  2. 分词,并统计词频tf

  3. 计算文档频率df

  4. 计算每篇文档的特征向量

  5. 计算搜索词与文档的夹角余弦值

    <?php$_txts = array('1.txt','2.txt','3.txt');$_len = count($_txts);for ($i = 0;$i < $_len;$i++){$_contents[] = file_get_contents($_txts[$i]);   //读取内容}for ($i = 0;$i < $_len;$i++){//分词$_words[] = explode(' ',trim($_contents[$i]));foreach ($_words[$i] as $_key=>$_value){$_value = trim($_value);$_value = preg_replace('/[.|,|(|)|-|;]/','',$_value);$_words[$i][$_key]=strtolower($_value);}//统计文档所有词的长度,一般计算tf需要除以这个值,为了简便,本次试验省去这步//$_words_count[]=count($_words[$i]);//词频tf$_tf[] = array_count_values($_words[$i]);//去重$_words[$i]= array_unique($_words[$i]);} //合并$_words_com = array_merge($_words[0],$_words[1],$_words[2]);//文档频率$_df = array_count_values($_words_com);//特征向量for ($i = 0;$i < $_len;$i++){//初始化,与文档频率的维度相同$_vsm[$i] = $_df;//把每个维度的值设置为0foreach($_vsm[$i] as $_key=>$_value){$_vsm[$i][$_key] = 0;}for ($j=0;$j<count($_words[$i]);$j++){if (in_array($_words[$i][$j],$_words_com)){$_vsm[$i][($_words[$i][$j])] = ($_tf[$i][($_words[$i][$j])])*(log($_len/$_df[($_words[$i][$j])]));} }} for($i = 0;$i < count($_vsm); $i++){echo '第'.($i+1).'篇文档的特征向量: ('. implode(",",$_vsm[$i]).')<br/>';}//测试$_query = 'java';$_vsm_que = $_df;foreach($_vsm_que as $_key=>$_value){$_vsm_que[$_key] = 0;}if (in_array($_query,$_vsm_que)){$_vsm_que[$_query] = 1;}for ($i = 0; $i < count($_vsm); $i++){foreach($_vsm_que as $_key=>$_value){$_sim[$i] += ($_vsm[$i][$_key]) * ($_vsm_que[$_key]);$_w1 += pow($_vsm_que[$_key],2);$_w2 += pow($_vsm[$i][$_key],2);}//求夹角余弦值,相似度计算$_cos[$i] = $_sim[$i]/(sqrt($_w1)*sqrt($_w2));echo '<br/>';echo '第'.($i+1).'篇文档的相似度:'.$_cos[$i];}arsort($_cos);foreach($_cos as $_key=>$_value){echo '<br/><br/>';echo '最符合的结果为第'.($_key+1).'篇文档';break;}
    ?>

    在浏览器运行的结果:


    第1篇文档的特征向量: (0,0,1.09861228867,0,0)
    第2篇文档的特征向量: (0,0,0,2.19722457734,0)
    第3篇文档的特征向量: (0,0,0,0,1.09861228867)

    第1篇文档的相似度:0
    第2篇文档的相似度:0
    第3篇文档的相似度:0.235702260396

    最符合的结果为第3篇文档


这篇关于使用tf*idf实现对文档集合的检索的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1086452

相关文章

Java中流式并行操作parallelStream的原理和使用方法

《Java中流式并行操作parallelStream的原理和使用方法》本文详细介绍了Java中的并行流(parallelStream)的原理、正确使用方法以及在实际业务中的应用案例,并指出在使用并行流... 目录Java中流式并行操作parallelStream0. 问题的产生1. 什么是parallelS

C++中unordered_set哈希集合的实现

《C++中unordered_set哈希集合的实现》std::unordered_set是C++标准库中的无序关联容器,基于哈希表实现,具有元素唯一性和无序性特点,本文就来详细的介绍一下unorder... 目录一、概述二、头文件与命名空间三、常用方法与示例1. 构造与析构2. 迭代器与遍历3. 容量相关4

Linux join命令的使用及说明

《Linuxjoin命令的使用及说明》`join`命令用于在Linux中按字段将两个文件进行连接,类似于SQL的JOIN,它需要两个文件按用于匹配的字段排序,并且第一个文件的换行符必须是LF,`jo... 目录一. 基本语法二. 数据准备三. 指定文件的连接key四.-a输出指定文件的所有行五.-o指定输出

Linux jq命令的使用解读

《Linuxjq命令的使用解读》jq是一个强大的命令行工具,用于处理JSON数据,它可以用来查看、过滤、修改、格式化JSON数据,通过使用各种选项和过滤器,可以实现复杂的JSON处理任务... 目录一. 简介二. 选项2.1.2.2-c2.3-r2.4-R三. 字段提取3.1 普通字段3.2 数组字段四.

C++中悬垂引用(Dangling Reference) 的实现

《C++中悬垂引用(DanglingReference)的实现》C++中的悬垂引用指引用绑定的对象被销毁后引用仍存在的情况,会导致访问无效内存,下面就来详细的介绍一下产生的原因以及如何避免,感兴趣... 目录悬垂引用的产生原因1. 引用绑定到局部变量,变量超出作用域后销毁2. 引用绑定到动态分配的对象,对象

Linux kill正在执行的后台任务 kill进程组使用详解

《Linuxkill正在执行的后台任务kill进程组使用详解》文章介绍了两个脚本的功能和区别,以及执行这些脚本时遇到的进程管理问题,通过查看进程树、使用`kill`命令和`lsof`命令,分析了子... 目录零. 用到的命令一. 待执行的脚本二. 执行含子进程的脚本,并kill2.1 进程查看2.2 遇到的

SpringBoot基于注解实现数据库字段回填的完整方案

《SpringBoot基于注解实现数据库字段回填的完整方案》这篇文章主要为大家详细介绍了SpringBoot如何基于注解实现数据库字段回填的相关方法,文中的示例代码讲解详细,感兴趣的小伙伴可以了解... 目录数据库表pom.XMLRelationFieldRelationFieldMapping基础的一些代

Java HashMap的底层实现原理深度解析

《JavaHashMap的底层实现原理深度解析》HashMap基于数组+链表+红黑树结构,通过哈希算法和扩容机制优化性能,负载因子与树化阈值平衡效率,是Java开发必备的高效数据结构,本文给大家介绍... 目录一、概述:HashMap的宏观结构二、核心数据结构解析1. 数组(桶数组)2. 链表节点(Node

Java AOP面向切面编程的概念和实现方式

《JavaAOP面向切面编程的概念和实现方式》AOP是面向切面编程,通过动态代理将横切关注点(如日志、事务)与核心业务逻辑分离,提升代码复用性和可维护性,本文给大家介绍JavaAOP面向切面编程的概... 目录一、AOP 是什么?二、AOP 的核心概念与实现方式核心概念实现方式三、Spring AOP 的关

详解SpringBoot+Ehcache使用示例

《详解SpringBoot+Ehcache使用示例》本文介绍了SpringBoot中配置Ehcache、自定义get/set方式,并实际使用缓存的过程,文中通过示例代码介绍的非常详细,对大家的学习或者... 目录摘要概念内存与磁盘持久化存储:配置灵活性:编码示例引入依赖:配置ehcache.XML文件:配置