机器学习:TF-IDF算法原理及代码实现

2024-08-30 09:04

本文主要是介绍机器学习:TF-IDF算法原理及代码实现,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

TF-IDF是一种用于信息检索与文本挖掘的常用加权技术。它是一种统计方法,用以评估一个词语对于一个文件集或一个语料库中的其中一份文件的重要程度。它的主要思想是:如果某个词语在一篇文章中出现的频率高(Term Frequency,TF),并且在其他文章中很少出现(Inverse Document Frequency,IDF),则认为这个词语具有很好的类别区分能力,对这篇文章的内容有很好的指示作用。

1. 词频(TF)

  • 定义:表示词条(关键字)在文档中出现的频率。
  • 计算公式
  • 目的:评估词条在文档中的重要性。

2. 逆文档频率(IDF)

  • 定义:表示词条的普遍重要性。
  • 计算公式
  • 目的:评估词条的稀有程度,降低常见词的权重。

3. TF-IDF

  • 定义:一个词条在一个文档中的重要性与它在语料库中的稀有程度的乘积。
  • 计算公式
  • 应用:通过计算文档中每个词条的TF-IDF值,可以评估词条对文档的区分能力。

4.优点:

  1. 简单性:TF-IDF算法易于理解和实现,不需要复杂的数学模型或机器学习技术。

  2. 有效性:在许多情况下,TF-IDF能够有效地捕捉文档中关键词的重要性,对于初步的文本分析和检索任务非常有效。

  3. 去噪能力:通过降低常见词的权重,TF-IDF减少了停用词和其他常见词对文本分析的影响。

  4. 无监督:TF-IDF不需要训练数据,可以应用于任何文本集合,无需事先标注。

  5. 多领域适用性:TF-IDF算法不依赖于特定领域的知识,因此可以应用于不同的领域和语料库。

  6. 可扩展性:TF-IDF可以应用于大规模文档集合,尽管计算和存储需求可能会随着文档数量的增加而增加。

5.缺点:

  1. 忽略词序:TF-IDF不考虑词条在文档中的位置或顺序,这可能会丢失一些语义信息。

  2. 对文档长度敏感:长文档可能会倾向于降低词条的权重,因为TF是基于词条出现次数的,而IDF与文档总数成反比。

  3. 无法捕捉同义词:TF-IDF无法识别意义相同或相近的不同词条,例如“汽车”和“轿车”可能被视为两个不同的词条。

  4. 无法处理多义词:TF-IDF不区分词条的不同含义,这可能导致在某些情况下权重分配不准确。

  5. 停用词处理:虽然TF-IDF降低了常见词的权重,但停用词的筛选需要预先进行,且不同的应用可能需要不同的停用词列表。

  6. 权重分配:TF-IDF的权重分配可能不是最优的,特别是在某些特定类型的文本分析任务中,可能需要更复杂的权重分配策略。

  7. 无法捕捉语义关系:TF-IDF不包含语义分析,无法捕捉词条之间的语义关系或上下文信息。

  8. 更新和维护成本:随着语料库的更新,TF-IDF模型需要重新计算,这可能在大规模数据集上是一个挑战。

6.代码实现

        1.数据预处理(task2_1.txt)

#打开文件task2_1.txt并读取所有行到列表cor。
import pandas as pd
infile=open(r"task2_1.txt","r")
cor=infile.readlines()

        2.导入TfidfVectorizer并初始化。

from sklearn.feature_extraction.text import TfidfVectorizer
tf=TfidfVectorizer()

        3.使用TfidfVectorizer将文本数据转换为TF-IDF矩阵。

tfidf=tf.fit_transform(cor)

        4.获取TF-IDF模型中的词汇表。

wordlist=tf.get_feature_names_out()

        5.创建一个DataFrame,其中词汇表作为索引,TF-IDF矩阵转置后的密集形式作为数据。

df=pd.DataFrame(tfidf.T.todense(),index=wordlist)

        6.遍历每篇文档,创建一个字典resdict来存储每篇文档中权重最高的词条。

for k in range(len(cor)):fea=df.iloc[:,k].to_list()resdict={}for i in range(0,len(wordlist)):if df.iloc[i,k]!= 0:  # 只考虑非零权重的词条resdict[wordlist[i]]=fea[i]# 按权重降序排序词条resdict=sorted(resdict.items(),key=lambda  x:x[1],reverse=True)print(resdict)

        7.完整代码

import pandas as pd
infile=open(r"task2_1.txt","r")
cor=infile.readlines()
# 初始化TfidfVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
tf=TfidfVectorizer()
# 转换文本数据为TF-IDF矩阵
tfidf=tf.fit_transform(cor)
# 获取词汇表
wordlist=tf.get_feature_names_out()
# 创建DataFrame,将词汇表作为行索引,原始文本数据作为列
df=pd.DataFrame(tfidf.T.todense(),index=wordlist)
for k in range(len(cor)):fea=df.iloc[:,k].to_list()resdict={}for i in range(0,len(wordlist)):if df.iloc[i,k]!= 0:resdict[wordlist[i]]=fea[i]resdict=sorted(resdict.items(),key=lambda  x:x[1],reverse=True)print(resdict)

这篇关于机器学习:TF-IDF算法原理及代码实现的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1120378

相关文章

Java实现字节字符转bcd编码

《Java实现字节字符转bcd编码》BCD是一种将十进制数字编码为二进制的表示方式,常用于数字显示和存储,本文将介绍如何在Java中实现字节字符转BCD码的过程,需要的小伙伴可以了解下... 目录前言BCD码是什么Java实现字节转bcd编码方法补充总结前言BCD码(Binary-Coded Decima

SpringBoot全局域名替换的实现

《SpringBoot全局域名替换的实现》本文主要介绍了SpringBoot全局域名替换的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录 项目结构⚙️ 配置文件application.yml️ 配置类AppProperties.Ja

Python实现批量CSV转Excel的高性能处理方案

《Python实现批量CSV转Excel的高性能处理方案》在日常办公中,我们经常需要将CSV格式的数据转换为Excel文件,本文将介绍一个基于Python的高性能解决方案,感兴趣的小伙伴可以跟随小编一... 目录一、场景需求二、技术方案三、核心代码四、批量处理方案五、性能优化六、使用示例完整代码七、小结一、

Java实现将HTML文件与字符串转换为图片

《Java实现将HTML文件与字符串转换为图片》在Java开发中,我们经常会遇到将HTML内容转换为图片的需求,本文小编就来和大家详细讲讲如何使用FreeSpire.DocforJava库来实现这一功... 目录前言核心实现:html 转图片完整代码场景 1:转换本地 HTML 文件为图片场景 2:转换 H

C#使用Spire.Doc for .NET实现HTML转Word的高效方案

《C#使用Spire.Docfor.NET实现HTML转Word的高效方案》在Web开发中,HTML内容的生成与处理是高频需求,然而,当用户需要将HTML页面或动态生成的HTML字符串转换为Wor... 目录引言一、html转Word的典型场景与挑战二、用 Spire.Doc 实现 HTML 转 Word1

C#实现一键批量合并PDF文档

《C#实现一键批量合并PDF文档》这篇文章主要为大家详细介绍了如何使用C#实现一键批量合并PDF文档功能,文中的示例代码简洁易懂,感兴趣的小伙伴可以跟随小编一起学习一下... 目录前言效果展示功能实现1、添加文件2、文件分组(书签)3、定义页码范围4、自定义显示5、定义页面尺寸6、PDF批量合并7、其他方法

SpringBoot实现不同接口指定上传文件大小的具体步骤

《SpringBoot实现不同接口指定上传文件大小的具体步骤》:本文主要介绍在SpringBoot中通过自定义注解、AOP拦截和配置文件实现不同接口上传文件大小限制的方法,强调需设置全局阈值远大于... 目录一  springboot实现不同接口指定文件大小1.1 思路说明1.2 工程启动说明二 具体实施2

Python实现精确小数计算的完全指南

《Python实现精确小数计算的完全指南》在金融计算、科学实验和工程领域,浮点数精度问题一直是开发者面临的重大挑战,本文将深入解析Python精确小数计算技术体系,感兴趣的小伙伴可以了解一下... 目录引言:小数精度问题的核心挑战一、浮点数精度问题分析1.1 浮点数精度陷阱1.2 浮点数误差来源二、基础解决

Java实现在Word文档中添加文本水印和图片水印的操作指南

《Java实现在Word文档中添加文本水印和图片水印的操作指南》在当今数字时代,文档的自动化处理与安全防护变得尤为重要,无论是为了保护版权、推广品牌,还是为了在文档中加入特定的标识,为Word文档添加... 目录引言Spire.Doc for Java:高效Word文档处理的利器代码实战:使用Java为Wo

Java实现远程执行Shell指令

《Java实现远程执行Shell指令》文章介绍使用JSch在SpringBoot项目中实现远程Shell操作,涵盖环境配置、依赖引入及工具类编写,详解分号和双与号执行多指令的区别... 目录软硬件环境说明编写执行Shell指令的工具类总结jsch(Java Secure Channel)是SSH2的一个纯J