jieba--做最好用的中文分词组件详解【5】(自定义停止词语料库)

2024-01-29 15:48

本文主要是介绍jieba--做最好用的中文分词组件详解【5】(自定义停止词语料库),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

写在最前面:

 

这回真的是最后一篇关于jieba的用法介绍了

 

关键词提取所使用停止词(停止词)文本语料库切换成自定义语料库的路径

 

这是使用自带的停用词语料库,使用TF-IDF算法提取20个关键词。

import jieba
import jieba.analysejieba.load_userdict("userdict.txt")
jieba.analyse.set_idf_path("./jieba-master/extra_dict/idf.txt.big")test_sent = ("这个李小福是那个云计算专家,他这个掌握了很多滑雪运动的那个知识,因此这个他那个当上了那个创新办什么主任"
)tags = jieba.analyse.extract_tags(test_sent, topK=20, withWeight=True)
for i in tags:print(i[0],i[1])

 

结果如下:

这个 1.8875948688789472
那个 0.9991485692126316
李小福 0.6291982896263157
云计算 0.6291982896263157
掌握 0.6291982896263157
很多 0.6291982896263157
知识 0.6291982896263157
当上 0.6291982896263157
创新办 0.6291982896263157
什么 0.6291982896263157
主任 0.6291982896263157
滑雪运动 0.6159712144526316
专家 0.29483627671210527
因此 0.21391291445421054

 

然后使用自定义的停止词语料库,我们在语料库里加了这些停用关键词。

这个
那个
什么

 

加载自定义停用语料库

jieba.analyse.set_stop_words("./jieba-master/extra_dict/stop_words.txt")

 

输出结果如下:

李小福 1.0867970457181817
云计算 1.0867970457181817
掌握 1.0867970457181817
很多 1.0867970457181817
知识 1.0867970457181817
当上 1.0867970457181817
创新办 1.0867970457181817
主任 1.0867970457181817
滑雪运动 1.063950279509091
专家 0.5092626597754545
因此 0.36948594314818184

 

可以看到,啰嗦的这个、那个、什么被去掉了,仅此而已。

这篇关于jieba--做最好用的中文分词组件详解【5】(自定义停止词语料库)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/657394

相关文章

Python标准库之数据压缩和存档的应用详解

《Python标准库之数据压缩和存档的应用详解》在数据处理与存储领域,压缩和存档是提升效率的关键技术,Python标准库提供了一套完整的工具链,下面小编就来和大家简单介绍一下吧... 目录一、核心模块架构与设计哲学二、关键模块深度解析1.tarfile:专业级归档工具2.zipfile:跨平台归档首选3.

idea的终端(Terminal)cmd的命令换成linux的命令详解

《idea的终端(Terminal)cmd的命令换成linux的命令详解》本文介绍IDEA配置Git的步骤:安装Git、修改终端设置并重启IDEA,强调顺序,作为个人经验分享,希望提供参考并支持脚本之... 目录一编程、设置前二、前置条件三、android设置四、设置后总结一、php设置前二、前置条件

python中列表应用和扩展性实用详解

《python中列表应用和扩展性实用详解》文章介绍了Python列表的核心特性:有序数据集合,用[]定义,元素类型可不同,支持迭代、循环、切片,可执行增删改查、排序、推导式及嵌套操作,是常用的数据处理... 目录1、列表定义2、格式3、列表是可迭代对象4、列表的常见操作总结1、列表定义是处理一组有序项目的

python使用try函数详解

《python使用try函数详解》Pythontry语句用于异常处理,支持捕获特定/多种异常、else/final子句确保资源释放,结合with语句自动清理,可自定义异常及嵌套结构,灵活应对错误场景... 目录try 函数的基本语法捕获特定异常捕获多个异常使用 else 子句使用 finally 子句捕获所

C++11范围for初始化列表auto decltype详解

《C++11范围for初始化列表autodecltype详解》C++11引入auto类型推导、decltype类型推断、统一列表初始化、范围for循环及智能指针,提升代码简洁性、类型安全与资源管理效... 目录C++11新特性1. 自动类型推导auto1.1 基本语法2. decltype3. 列表初始化3

SQL Server 中的 WITH (NOLOCK) 示例详解

《SQLServer中的WITH(NOLOCK)示例详解》SQLServer中的WITH(NOLOCK)是一种表提示,等同于READUNCOMMITTED隔离级别,允许查询在不获取共享锁的情... 目录SQL Server 中的 WITH (NOLOCK) 详解一、WITH (NOLOCK) 的本质二、工作

SQL Server安装时候没有中文选项的解决方法

《SQLServer安装时候没有中文选项的解决方法》用户安装SQLServer时界面全英文,无中文选项,通过修改安装设置中的国家或地区为中文中国,重启安装程序后界面恢复中文,解决了问题,对SQLSe... 你是不是在安装SQL Server时候发现安装界面和别人不同,并且无论如何都没有中文选项?这个问题也

springboot自定义注解RateLimiter限流注解技术文档详解

《springboot自定义注解RateLimiter限流注解技术文档详解》文章介绍了限流技术的概念、作用及实现方式,通过SpringAOP拦截方法、缓存存储计数器,结合注解、枚举、异常类等核心组件,... 目录什么是限流系统架构核心组件详解1. 限流注解 (@RateLimiter)2. 限流类型枚举 (

Java Thread中join方法使用举例详解

《JavaThread中join方法使用举例详解》JavaThread中join()方法主要是让调用改方法的thread完成run方法里面的东西后,在执行join()方法后面的代码,这篇文章主要介绍... 目录前言1.join()方法的定义和作用2.join()方法的三个重载版本3.join()方法的工作原

Spring AI使用tool Calling和MCP的示例详解

《SpringAI使用toolCalling和MCP的示例详解》SpringAI1.0.0.M6引入ToolCalling与MCP协议,提升AI与工具交互的扩展性与标准化,支持信息检索、行动执行等... 目录深入探索 Spring AI聊天接口示例Function CallingMCPSTDIOSSE结束语