jieba textrank关键词提取 python_教你如何使用python快速提取文章关键词(附源码)

2023-11-11 14:50

本文主要是介绍jieba textrank关键词提取 python_教你如何使用python快速提取文章关键词(附源码),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

写在前面

如何给文章取一个标题,要贴近文章主题那种?如何给文章提取关键词?即使你能一目十行,过目不忘,也比不上机器“一幕十篇”。接下来介绍一个python项目,经过笔者的改造后,可以方便学习和使用,它能很好、很快地提取文章关键词。

dbc7c29bdd737f1c3401eab7215c2277.png

先喝杯咖啡,让我们开始python之旅

  • 环境配置

python版本: 3.6.0

编辑器: pycharm

项目所需要的环境安装包

pip install jiebapip install bs4
  • 代码目录结构:
60de150e8d2a62d5443b64dfae279cdb.png

第一步:导入相关的python包

# encoding:utf-8import jiebaimport jieba.analyseimport jieba.posseg as psegfrom bs4 import BeautifulSoup

jieba: 这是一个处理中文分词工具包。其实它并不是只有分词这一个功能,而是一个开源框架,提供了很多在分词之上的算法,如关键词提取、词性标注等。可以说是做人工智能一个必备的python包。

bs4: 它的作用是能够快速方便简单的提取网页中指定的内容,给我一个网页字符串,然后使用它的接口将网页字符串生成一个对象,然后通过这个对象的方法来提取数据。爬虫工程师会经常用到这个包,这里作为一个数据清洗的包使用。

5f8ac69346e1a541ca76afa57dba4f0d.png

第二步:参数配置类

class CONF:    stopwords_path = './data/stopwords.txt'    mydict_path = './data/mydict.txt'    top_n = 10  # 只取10个关键词

参数配置类: 文件路径、模型存放路径、模型参数统一放在一个类中。值得注意的是,实际项目开发的时候,是用后缀名为config 文本文件存放,不会直接写在代码里。这里为了演示方便,就写在一起,也方便运行。这块代码放在代码文件的开头也方便查看和修改。stopwords_path 是一个停用词库的相对路径。mydict_path 是一个词典路径,词典里主要存放一些网络名词和一些 jieba 分词识别不出的新词汇。

f966b7280f641a4ca576cb31798c4b8e.png

第三步:类的初始化

class KeyWordModel:    def __init__(self, stopwords_path, mydict_path, top_n):        self.stopwords_path = stopwords_path        self.mydict_path = mydict_path        self.top_n = top_n        # 加载停用词  特殊词典        jieba.analyse.set_stop_words(self.stopwords_path)        jieba.load_userdict(self.mydict_path)    """模型初始化"""    @classmethod    def initialize(cls, config):        stopwords_path = config.stopwords_path        mydict_path = config.mydict_path        top_n = config.top_n        return cls(stopwords_path, mydict_path, top_n)

initialize() 函数和 __init__() 函数 是对象初始化和实例化,其中包括基本参数的赋值、最后返回用户一个对象。这里作为一个类的基本操作,是属于一个通用模板,在大多数项目中,都可以这么去写。为了养成良好的编程习惯,大家可以把这个模板记下来,后续直接套用,修改部分参数就可以了。jieba.analyse.set_stop_words() jieba.load_userdict() 分别是导入停用词和导入自己构建的词汇,这里放在__init__() 函数中,类被实例化的时候,只被调用一次。

aa76182a8b45670a379617d69dbed050.png

第四步: 类的主流程函数

"""获取关键词"""def get_keyword(self, content):    text_rank_word = self.__tf_idf_key_word(content)    tf_idf_word = self.__textrank_key_word(content)    word_list = list(set(text_rank_word).union(set(tf_idf_word)))    result = self.__filter_pos_key_word(word_list, content)    return result

在写代码的时候,一定要抓住主线,就是代码运行的主流程。因为一个完整可靠的项目,它是有很多细枝末节考虑,很多步骤是要分模块来写。主流程就是把主心干确定好,各个模块的入口确定好。这样开发的时候,思路会比较清晰,不会被细节吸引住。这里主心干只有个函数 get_keyword() 的调用,其中text_rank_word tf_idf_word 分别用textranktfidf算法提取关键词,最后再用词性过滤器__filter_pos_key_word(), 提取名词关键词。

e38739a33fc427e49672037f7244be16.png

第五步: 提取关键词的三个方法

"""TF-IDF 提取top_n个关键词"""def __tf_idf_key_word(self, content):    sp = BeautifulSoup(content, "html.parser")    tags = jieba.analyse.extract_tags(sp.text, topK=self.top_n)    return tags"""TextRank 提取top_n个关键词"""def __textrank_key_word(self, content):    sp = BeautifulSoup(content, "html.parser")    tags = jieba.analyse.textrank(sp.text, topK=self.top_n)    return tags"""只获取名词"""def __filter_pos_key_word(self, tag_list, content, pos_list=['n', 'nr', 'ns', 'nt', 'nrt']):    sp = BeautifulSoup(content, "html.parser")    words = pseg.cut(sp.text)    list_tmp = []    for w in words:        word = w.word        if w.flag in pos_list and len(word) > 1 and word not in list_tmp and word in tag_list:            list_tmp.append(word)    return list_tm

TF-IDF: 这是一个常用的提取关键词算法,利用文章中词频越高重要性越高、和逆词频(该词在其他文章词频越低越能代表本文章)。

TextRank: 有点像PageRank 算法,感兴趣的朋友可以了解一下,这里不过多介绍有难度的算法。

pseg: 这是一个词性解析器,它能够分析句子中每个词语的属性,例如:名词、动词、形容词等。

21bddb24bc907e8807095426f903c17c.png

第六步: 主函数入口

f44f36a202916c35f1fa4f1cccda994a.png

最后,测试一下

用我之前写的《最近很火的文章自动生成器,python源码公开了(内附python代码)》,来生成随机一篇文章标题为《标题党》的文章,作为程序的输入,运行结果:

ebb852c112a3c10b3ba1784748b65876.png

关键词: ['标题党', '事实', '缺点', '深思', '角度', '能力', '梦想']


如果有疑问想获取源码, 可以在后台私信我,回复:python关键词。 我把源码发你。最后,感谢大家的阅读,祝大家工作生活愉快!

这篇关于jieba textrank关键词提取 python_教你如何使用python快速提取文章关键词(附源码)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:https://blog.csdn.net/weixin_39603469/article/details/110208664
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/390826

相关文章

Python并行处理实战之如何使用ProcessPoolExecutor加速计算

《Python并行处理实战之如何使用ProcessPoolExecutor加速计算》Python提供了多种并行处理的方式,其中concurrent.futures模块的ProcessPoolExecu... 目录简介完整代码示例代码解释1. 导入必要的模块2. 定义处理函数3. 主函数4. 生成数字列表5.

Python中help()和dir()函数的使用

《Python中help()和dir()函数的使用》我们经常需要查看某个对象(如模块、类、函数等)的属性和方法,Python提供了两个内置函数help()和dir(),它们可以帮助我们快速了解代... 目录1. 引言2. help() 函数2.1 作用2.2 使用方法2.3 示例(1) 查看内置函数的帮助(

Python虚拟环境与Conda使用指南分享

《Python虚拟环境与Conda使用指南分享》:本文主要介绍Python虚拟环境与Conda使用指南,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、python 虚拟环境概述1.1 什么是虚拟环境1.2 为什么需要虚拟环境二、Python 内置的虚拟环境工具

Linux脚本(shell)的使用方式

《Linux脚本(shell)的使用方式》:本文主要介绍Linux脚本(shell)的使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录概述语法详解数学运算表达式Shell变量变量分类环境变量Shell内部变量自定义变量:定义、赋值自定义变量:引用、修改、删

Python实例题之pygame开发打飞机游戏实例代码

《Python实例题之pygame开发打飞机游戏实例代码》对于python的学习者,能够写出一个飞机大战的程序代码,是不是感觉到非常的开心,:本文主要介绍Python实例题之pygame开发打飞机... 目录题目pygame-aircraft-game使用 Pygame 开发的打飞机游戏脚本代码解释初始化部

Python pip下载包及所有依赖到指定文件夹的步骤说明

《Pythonpip下载包及所有依赖到指定文件夹的步骤说明》为了方便开发和部署,我们常常需要将Python项目所依赖的第三方包导出到本地文件夹中,:本文主要介绍Pythonpip下载包及所有依... 目录步骤说明命令格式示例参数说明离线安装方法注意事项总结要使用pip下载包及其所有依赖到指定文件夹,请按照以

Python实现精准提取 PDF中的文本,表格与图片

《Python实现精准提取PDF中的文本,表格与图片》在实际的系统开发中,处理PDF文件不仅限于读取整页文本,还有提取文档中的表格数据,图片或特定区域的内容,下面我们来看看如何使用Python实... 目录安装 python 库提取 PDF 文本内容:获取整页文本与指定区域内容获取页面上的所有文本内容获取

基于Python实现一个Windows Tree命令工具

《基于Python实现一个WindowsTree命令工具》今天想要在Windows平台的CMD命令终端窗口中使用像Linux下的tree命令,打印一下目录结构层级树,然而还真有tree命令,但是发现... 目录引言实现代码使用说明可用选项示例用法功能特点添加到环境变量方法一:创建批处理文件并添加到PATH1

Python包管理工具核心指令uvx举例详细解析

《Python包管理工具核心指令uvx举例详细解析》:本文主要介绍Python包管理工具核心指令uvx的相关资料,uvx是uv工具链中用于临时运行Python命令行工具的高效执行器,依托Rust实... 目录一、uvx 的定位与核心功能二、uvx 的典型应用场景三、uvx 与传统工具对比四、uvx 的技术实

Java使用HttpClient实现图片下载与本地保存功能

《Java使用HttpClient实现图片下载与本地保存功能》在当今数字化时代,网络资源的获取与处理已成为软件开发中的常见需求,其中,图片作为网络上最常见的资源之一,其下载与保存功能在许多应用场景中都... 目录引言一、Apache HttpClient简介二、技术栈与环境准备三、实现图片下载与保存功能1.