利用TextRank算法提取摘要关键词以及Java实现

2023-10-24 17:10

本文主要是介绍利用TextRank算法提取摘要关键词以及Java实现,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

谈起自动摘要算法,常见的并且最易实现的当属TF-IDF,但是感觉TF-IDF效果一般,不如TextRank好。

 一. TF-IDF与TextRank


1. TF-IDF简介

TF-IDF(Term Frequency/Inverse Document Frequency)是信息检索领域非常重要的搜索词重要性度量;用以衡量一个关键词w对于查询(Query,可看作文档)所能提供的信息。词频(Term Frequency, TF)表示关键词w在文档Di中出现的频率:

其中,count(w)为关键词w的出现次数,|Di|为文档Di中所有词的数量。逆文档频率(Inverse Document Frequency, IDF)反映关键词的普遍程度——当一个词越普遍(即有大量文档包含这个词)时,其IDF值越低;反之,则IDF值越高。IDF定义如下:

其中,N为所有的文档总数,I(w,Di)表示文档Di是否包含关键词,若包含则为1,若不包含则为0。若词w在所有文档中均未出现,则IDF公式中的分母为0;因此需要对IDF做平滑(smooth):

关键词w在文档Di的TF-IDF值:

从上述定义可以看出:

  • 当一个词在文档频率越高并且新鲜度高(即普遍度低),其TF-IDF值越高。
  • TF-IDF兼顾词频与新鲜度,过滤一些常见词,保留能提供更多信息的重要词。

2. TextRank简介

TextRank是在Google的PageRank算法启发下,针对文本里的句子设计的权重算法,目标是自动摘要。它利用投票的原理,让每一个单词给它的邻居(术语称窗口)投赞成票,票的权重取决于自己的票数。这是一个“先有鸡还是先有蛋”的悖论,PageRank采用矩阵迭代收敛的方式解决了这个悖论,TextRank也不例外!

2.1 PageRank的计算公式:

2.2 正规的TextRank公式

正规的TextRank公式在PageRank的公式的基础上,引入了边的权值的概念,代表两个句子的相似度。

但是很明显,如果只想计算关键字,就把一个单词视为一个句子,那么所有句子(单词)构成的边的权重都是0(没有交集,没有相似性),所以分子分母的权值w约掉得了,算法退化为PageRank。所以说,这里称关键字提取算法为PageRank也不为过。

在这里算是简单说明了TextRank的内在原理,以下对其关键词提取应用做进一步说明。

2.3 关键词提取算法

TextRank用于关键词提取的算法如下:

  • ①把给定的文本T按照完整句子进行分割,即
  • ②对于每个句子Si属于T,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,如名词、动词、形容词,即

其中 ti,j 是保留后的候选关键词。

  • ③构建候选关键词图G = (V,E),其中V为节点集,由(2)生成的候选关键词组成,然后采用共现关系(co-occurrence)构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,即最多共现K个单词。
  • ④根据上面公式,迭代传播各节点的权重,直至收敛。
  • ⑤对节点权重进行倒序排序,从而得到最重要的T个单词,作为候选关键词。
  • ⑥由⑤得到最重要的T个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词。

3. 对比总结

  • TextRank与TFIDF均严重依赖于分词结果——如果某词在分词时被切分成了两个词,那么在做关键词提取时无法将两个词黏合在一起(TextRank有部分黏合效果,但需要这两个词均为关键词)。因此是否添加标注关键词进自定义词典,将会造成准确率、召回率大相径庭。
  • TextRank的效果优于TFIDF。
  • TextRank并不需要制作特定的语言模型,它只跟当前文章有关。

二、TextRank的java实现

TextRank的java实现主要参考了HanLP中开源,将其中的分词工具替换成ANSJ分词

1、算法类


import java.util.*;/*** @author summer* @date 2020/07/30*/
public class Demo {private static float min_diff = 0.001f; //差值最小private static int max_iter = 200;//最大迭代次数private static int k = 2;  //窗口大小/2private static float d = 0.85f;private static List<String> textRank(String field, int keywordNum) {//分词List<WOD<String>> wods = ToAnalysisParse(field);// StopWord.filter(wods);//过滤掉不需要的分词,可省略Map<String, Set<String>> relationWords = new HashMap<>();//获取每个关键词 前后k个的组合for (int i = 0; i < wods.size(); i++) {String keyword = wods.get(i).getName();Set<String> keySets = relationWords.get(keyword);if (keySets == null) {keySets = new HashSet<>();relationWords.put(keyword, keySets);}for (int j = i - k; j <= i + k; j++) {if (j < 0 || j >= wods.size() || j == i) {continue;} else {keySets.add(wods.get(j).getName());}}}Map<String, Float> score = new HashMap<>();//迭代for (int i = 0; i < max_iter; i++) {Map<String, Float> m = new HashMap<>();float max_diff = 0;for (String key : relationWords.keySet()) {Set<String> value = relationWords.get(key);//先给每个关键词一个默认rank值m.put(key, 1 - d);//一个关键词的TextRank由其它成员投票出来for (String other : value) {int size = relationWords.get(other).size();if (key.equals(other) || size == 0) {continue;} else {m.put(key, m.get(key) + d / size * (score.get(other) == null ? 0 : score.get(other)));}}max_diff = Math.max(max_diff, Math.abs(m.get(key) - (score.get(key) == null ? 0 : score.get(key))));}score = m;if (max_diff <= min_diff) {
//                System.out.println("迭代次数:" + i);break;}}List<WOD<String>> scores = new ArrayList<>();for (String s : score.keySet()) {WOD<String> score1 = new WOD(s, score.get(s));scores.add(score1);}scores.sort(new Comparator<WOD<String>>() {@Overridepublic int compare(WOD<String> o1, WOD<String> o2) {return o1.compareTo(o2);}});List<String> keywords = new ArrayList<>();int index = 0;for (WOD<String> score1 : scores) {keywords.add(score1.getName());index++;if (index==keywordNum)break;}return keywords;}public static List<WOD<String>> ToAnalysisParse(String str) {List<WOD<String>> wods = new ArrayList();List<Term> terms = ToAnalysis.parse(str);Iterator var4 = terms.iterator();while(var4.hasNext()) {Term term = (Term)var4.next();wods.add(new WOD(term.getName(), term.getNatureStr()));}return wods;}
}

2、WOD类

import java.io.Serializable;public class WOD<T> implements Comparable<WOD<T>>, Serializable {private static final long serialVersionUID = -2317609898674927526L;private T obj;private double score;private String nature = "";public WOD() {}public WOD(T obj) {this.obj = obj;}public WOD(T obj, double score) {this.obj = obj;this.score = score;}public WOD(T obj, String nature) {this.obj = obj;this.nature = nature;}public WOD(T obj, double score, String nature) {this.obj = obj;this.score = score;this.nature = nature;}public String getName() {return this.obj.toString();}public void setObj(T obj) {this.obj = obj;}public T getObj() {return this.obj;}public double getScore() {return this.score;}public void setScore(double score) {this.score = score;}public String getNature() {return this.nature;}public void setNature(String nature) {this.nature = nature;}public String toString() {return this.getName() + "/" + this.score;}public String toDetailString() {return this.getName() + "/" + this.nature + "/" + this.score;}public String toSimpleString() {return this.getName();}public int compareTo(WOD<T> o) {if (this.score > o.score) {return -1;} else {return this.score == o.score ? 0 : 1;}}public boolean equals(Object obj) {if (obj instanceof WOD) {WOD w = (WOD)obj;return w.getName().equals(this.getName());} else {return false;}}
}

3、调用方法

public static void main(String[] args) {String field = "哈利·波特,40岁生日快乐! 1991年7月31日,11岁的哈利·波特收到一份特殊的生日礼物——霍格沃兹魔法学校的录取通知书,由此踏上他的魔法之旅……2020年7月31日,陪伴无数青少年长大的哈利迎来了他的40岁生日。 今年也是“哈利·波特”系列小说进入中国20周年,人民文学出版社推出《哈利·波特与魔法石》学院纪念版,包括格兰芬多、斯莱特林、赫奇帕奇和拉文克劳四个学院版本。 31日晚,该社将举办迄今为止最大型的线上直播暨哈利·波特学院杯争夺赛。与此同时,“哈利·波特”系列八部电影正在第23届上海国际电影节展映,第一部电影《哈利·波特与魔法石》4K修复3D版,定档8月14日在内地重映。   ";List<String> keywords = Demo.textRank(field,10);System.out.println("关键词:" + keywords);}

4、测试

语料:

哈利·波特,40岁生日快乐!

1991年7月31日,11岁的哈利·波特收到一份特殊的生日礼物——霍格沃兹魔法学校的录取通知书,由此踏上他的魔法之旅……2020年7月31日,陪伴无数青少年长大的哈利迎来了他的40岁生日。 今年也是“哈利·波特”系列小说进入中国20周年,人民文学出版社推出《哈利·波特与魔法石》学院纪念版,包括格兰芬多、斯莱特林、赫奇帕奇和拉文克劳四个学院版本。 31日晚,该社将举办迄今为止最大型的线上直播暨哈利·波特学院杯争夺赛。与此同时,“哈利·波特”系列八部电影正在第23届上海国际电影节展映,第一部电影《哈利·波特与魔法石》4K修复3D版,定档8月14日在内地重映。   

结果:

关键词:[哈利·波特, 学院, 魔法, 电影, 魔法石, 40岁, 无数, 大型, 青少年, 陪伴]

这篇关于利用TextRank算法提取摘要关键词以及Java实现的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/276632

相关文章

Java中流式并行操作parallelStream的原理和使用方法

《Java中流式并行操作parallelStream的原理和使用方法》本文详细介绍了Java中的并行流(parallelStream)的原理、正确使用方法以及在实际业务中的应用案例,并指出在使用并行流... 目录Java中流式并行操作parallelStream0. 问题的产生1. 什么是parallelS

C++中unordered_set哈希集合的实现

《C++中unordered_set哈希集合的实现》std::unordered_set是C++标准库中的无序关联容器,基于哈希表实现,具有元素唯一性和无序性特点,本文就来详细的介绍一下unorder... 目录一、概述二、头文件与命名空间三、常用方法与示例1. 构造与析构2. 迭代器与遍历3. 容量相关4

Java中Redisson 的原理深度解析

《Java中Redisson的原理深度解析》Redisson是一个高性能的Redis客户端,它通过将Redis数据结构映射为Java对象和分布式对象,实现了在Java应用中方便地使用Redis,本文... 目录前言一、核心设计理念二、核心架构与通信层1. 基于 Netty 的异步非阻塞通信2. 编解码器三、

C++中悬垂引用(Dangling Reference) 的实现

《C++中悬垂引用(DanglingReference)的实现》C++中的悬垂引用指引用绑定的对象被销毁后引用仍存在的情况,会导致访问无效内存,下面就来详细的介绍一下产生的原因以及如何避免,感兴趣... 目录悬垂引用的产生原因1. 引用绑定到局部变量,变量超出作用域后销毁2. 引用绑定到动态分配的对象,对象

SpringBoot基于注解实现数据库字段回填的完整方案

《SpringBoot基于注解实现数据库字段回填的完整方案》这篇文章主要为大家详细介绍了SpringBoot如何基于注解实现数据库字段回填的相关方法,文中的示例代码讲解详细,感兴趣的小伙伴可以了解... 目录数据库表pom.XMLRelationFieldRelationFieldMapping基础的一些代

一篇文章彻底搞懂macOS如何决定java环境

《一篇文章彻底搞懂macOS如何决定java环境》MacOS作为一个功能强大的操作系统,为开发者提供了丰富的开发工具和框架,下面:本文主要介绍macOS如何决定java环境的相关资料,文中通过代码... 目录方法一:使用 which命令方法二:使用 Java_home工具(Apple 官方推荐)那问题来了,

Java HashMap的底层实现原理深度解析

《JavaHashMap的底层实现原理深度解析》HashMap基于数组+链表+红黑树结构,通过哈希算法和扩容机制优化性能,负载因子与树化阈值平衡效率,是Java开发必备的高效数据结构,本文给大家介绍... 目录一、概述:HashMap的宏观结构二、核心数据结构解析1. 数组(桶数组)2. 链表节点(Node

Java AOP面向切面编程的概念和实现方式

《JavaAOP面向切面编程的概念和实现方式》AOP是面向切面编程,通过动态代理将横切关注点(如日志、事务)与核心业务逻辑分离,提升代码复用性和可维护性,本文给大家介绍JavaAOP面向切面编程的概... 目录一、AOP 是什么?二、AOP 的核心概念与实现方式核心概念实现方式三、Spring AOP 的关

详解SpringBoot+Ehcache使用示例

《详解SpringBoot+Ehcache使用示例》本文介绍了SpringBoot中配置Ehcache、自定义get/set方式,并实际使用缓存的过程,文中通过示例代码介绍的非常详细,对大家的学习或者... 目录摘要概念内存与磁盘持久化存储:配置灵活性:编码示例引入依赖:配置ehcache.XML文件:配置

Java 虚拟线程的创建与使用深度解析

《Java虚拟线程的创建与使用深度解析》虚拟线程是Java19中以预览特性形式引入,Java21起正式发布的轻量级线程,本文给大家介绍Java虚拟线程的创建与使用,感兴趣的朋友一起看看吧... 目录一、虚拟线程简介1.1 什么是虚拟线程?1.2 为什么需要虚拟线程?二、虚拟线程与平台线程对比代码对比示例:三