jieba--做最好用的中文分词组件详解【5】(自定义停止词语料库)

2024-01-29 15:48

本文主要是介绍jieba--做最好用的中文分词组件详解【5】(自定义停止词语料库),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

写在最前面:

 

这回真的是最后一篇关于jieba的用法介绍了

 

关键词提取所使用停止词(停止词)文本语料库切换成自定义语料库的路径

 

这是使用自带的停用词语料库,使用TF-IDF算法提取20个关键词。

import jieba
import jieba.analysejieba.load_userdict("userdict.txt")
jieba.analyse.set_idf_path("./jieba-master/extra_dict/idf.txt.big")test_sent = ("这个李小福是那个云计算专家,他这个掌握了很多滑雪运动的那个知识,因此这个他那个当上了那个创新办什么主任"
)tags = jieba.analyse.extract_tags(test_sent, topK=20, withWeight=True)
for i in tags:print(i[0],i[1])

 

结果如下:

这个 1.8875948688789472
那个 0.9991485692126316
李小福 0.6291982896263157
云计算 0.6291982896263157
掌握 0.6291982896263157
很多 0.6291982896263157
知识 0.6291982896263157
当上 0.6291982896263157
创新办 0.6291982896263157
什么 0.6291982896263157
主任 0.6291982896263157
滑雪运动 0.6159712144526316
专家 0.29483627671210527
因此 0.21391291445421054

 

然后使用自定义的停止词语料库,我们在语料库里加了这些停用关键词。

这个
那个
什么

 

加载自定义停用语料库

jieba.analyse.set_stop_words("./jieba-master/extra_dict/stop_words.txt")

 

输出结果如下:

李小福 1.0867970457181817
云计算 1.0867970457181817
掌握 1.0867970457181817
很多 1.0867970457181817
知识 1.0867970457181817
当上 1.0867970457181817
创新办 1.0867970457181817
主任 1.0867970457181817
滑雪运动 1.063950279509091
专家 0.5092626597754545
因此 0.36948594314818184

 

可以看到,啰嗦的这个、那个、什么被去掉了,仅此而已。

这篇关于jieba--做最好用的中文分词组件详解【5】(自定义停止词语料库)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/657394

相关文章

SQL BETWEEN 语句的基本用法详解

《SQLBETWEEN语句的基本用法详解》SQLBETWEEN语句是一个用于在SQL查询中指定查询条件的重要工具,它允许用户指定一个范围,用于筛选符合特定条件的记录,本文将详细介绍BETWEEN语... 目录概述BETWEEN 语句的基本用法BETWEEN 语句的示例示例 1:查询年龄在 20 到 30 岁

CSS place-items: center解析与用法详解

《CSSplace-items:center解析与用法详解》place-items:center;是一个强大的CSS简写属性,用于同时控制网格(Grid)和弹性盒(Flexbox)... place-items: center; 是一个强大的 css 简写属性,用于同时控制 网格(Grid) 和 弹性盒(F

spring中的ImportSelector接口示例详解

《spring中的ImportSelector接口示例详解》Spring的ImportSelector接口用于动态选择配置类,实现条件化和模块化配置,关键方法selectImports根据注解信息返回... 目录一、核心作用二、关键方法三、扩展功能四、使用示例五、工作原理六、应用场景七、自定义实现Impor

一文深入详解Python的secrets模块

《一文深入详解Python的secrets模块》在构建涉及用户身份认证、权限管理、加密通信等系统时,开发者最不能忽视的一个问题就是“安全性”,Python在3.6版本中引入了专门面向安全用途的secr... 目录引言一、背景与动机:为什么需要 secrets 模块?二、secrets 模块的核心功能1. 基

一文详解MySQL如何设置自动备份任务

《一文详解MySQL如何设置自动备份任务》设置自动备份任务可以确保你的数据库定期备份,防止数据丢失,下面我们就来详细介绍一下如何使用Bash脚本和Cron任务在Linux系统上设置MySQL数据库的自... 目录1. 编写备份脚本1.1 创建并编辑备份脚本1.2 给予脚本执行权限2. 设置 Cron 任务2

一文详解如何在idea中快速搭建一个Spring Boot项目

《一文详解如何在idea中快速搭建一个SpringBoot项目》IntelliJIDEA作为Java开发者的‌首选IDE‌,深度集成SpringBoot支持,可一键生成项目骨架、智能配置依赖,这篇文... 目录前言1、创建项目名称2、勾选需要的依赖3、在setting中检查maven4、编写数据源5、开启热

Python常用命令提示符使用方法详解

《Python常用命令提示符使用方法详解》在学习python的过程中,我们需要用到命令提示符(CMD)进行环境的配置,:本文主要介绍Python常用命令提示符使用方法的相关资料,文中通过代码介绍的... 目录一、python环境基础命令【Windows】1、检查Python是否安装2、 查看Python的安

HTML5 搜索框Search Box详解

《HTML5搜索框SearchBox详解》HTML5的搜索框是一个强大的工具,能够有效提升用户体验,通过结合自动补全功能和适当的样式,可以创建出既美观又实用的搜索界面,这篇文章给大家介绍HTML5... html5 搜索框(Search Box)详解搜索框是一个用于输入查询内容的控件,通常用于网站或应用程

Python中使用uv创建环境及原理举例详解

《Python中使用uv创建环境及原理举例详解》uv是Astral团队开发的高性能Python工具,整合包管理、虚拟环境、Python版本控制等功能,:本文主要介绍Python中使用uv创建环境及... 目录一、uv工具简介核心特点:二、安装uv1. 通过pip安装2. 通过脚本安装验证安装:配置镜像源(可

C++ 函数 strftime 和时间格式示例详解

《C++函数strftime和时间格式示例详解》strftime是C/C++标准库中用于格式化日期和时间的函数,定义在ctime头文件中,它将tm结构体中的时间信息转换为指定格式的字符串,是处理... 目录C++ 函数 strftipythonme 详解一、函数原型二、功能描述三、格式字符串说明四、返回值五