实践篇(5):基于REfO的简单知识问答

2023-11-12 00:20
文章标签 简单 实践 问答 知识 refo

本文主要是介绍实践篇(5):基于REfO的简单知识问答,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

image

本文主要参考SimmerChan大神文章:https://zhuanlan.zhihu.com/p/33224431
Pelhans 大神的博客:http://pelhans.com/2018/09/03/kg_from_0_note3/

1 简介

基于浙江大学在openKG上提供的 基于REfO的KBQA实现及示例。代码部分浙大方面已经完成绝大部分,这里主要将其应用到自己的知识图谱上。在运行KBQA代码前,应按照前面的教程将电影类知识图谱导入到Jena的TDB数据库中,并运行fuseki服务器,这样我们才能进行访问查询。

1.1代码结构

 jena_sparql_endpoint.pyquery_main.pyquestion2sparql.pyquestion_temp.pyword_tagging.pyexternal_dict/csv2txt.pymovie_title.csvmovie_title.txtperson_name.csvperson_name.txt__init__.py
  • "KB_query"文件夹包含的是完成整个问答demo流程所需要的脚本。
  • "external_dict"包含的是人名和电影名两个外部词典。csv文件是从mysql-workbench导出的,按照jieba外部词典的格式,我们将csv转为对应的txt。
  • “word_tagging”,定义Word类的结构(即我们在REfO中使用的对象);定义"Tagger"类来初始化词典,并实现自然语言到Word对象的方法。
  • “jena_sparql_endpoint”,用于完成与Fuseki的交互。
  • “question2sparql”,将自然语言转为对应的SPARQL查询。
  • “question_temp”,定义SPARQL模板和匹配规则。
  • “query_main”,main函数。

在运行"query_main"之前,读者需要启动Fuseki服务,具体方法请参考上一篇文章。

1.2 展示:

2具体实现

基于REfO的简单知识问答的原理很简单,就是通过REfo提供的匹配能力,在输入的自然语言问题中进行匹配查找。如果找到我们预先设定的词或词性组合,那么就认为该问题与这个词或词性组合匹配。而一个词或词性的组合又对应着一个SPARQL查询模板,这样我们就借助REfO完成了自然语言到查询模板的转换。得到查询模板后,我们就利用Jena fuseki 服务器提供的端口进行查询得到返回的结果。

2.1 模块一 word_tagging部分

该部分利用jieba分词对中文句子进行分词和词性标注。将词的文本和词性进行打包,视为词对象,对应 :class:Word(token, pos)。

class Word(object):    def __init__(self, token, pos):self.token = tokenself.pos = pos class Tagger:          def __init__(self, dict_paths):# TODO 加载外部词典for p in dict_paths:jieba.load_userdict(p)def get_word_objects(self, sentence):""" Get :class:WOrd(token, pos) """            return [Word(word.encode('utf-8'), tag) for word, tag in pseg.cut(sentence)]

2.2 模块二 rules 部分

该部分为程序核心,负责将自然语言转换为SPARQL模板。

下面为rules的程序入口,customize_rules 函数:

def customize_rules():# some rules for matching# TODO: customize your own rules hereperson = (W(pos="nr") | W(pos="x") | W(pos="nrt"))movie = (W(pos="nz"))place = (W("出生地") | W("出生"))intro = (W("简介") | W(pos="介绍"))rules = [      Rule(condition=W(pos="r") + W("是") + person | \ person + W("是") + W(pos="r"),action=who_is_question),Rule(condition=person + Star(Any(), greedy=False) + place + Star(Any(), greedy=False),action=where_is_from_question),Rule(condition=movie + Star(Any(), greedy=False) + intro + Star(Any(), greedy=False) ,action=movie_intro_question)]         return rules

该函数中我们设置了一些简单的匹配规则,例如我们设置 ‘’’movie = (W(pos=”nz”))’’‘,即movie 的词性应该是nz。其中的W()是我们在继承REfO的Predicate方法的基础上扩展更新了match方法。您可以简单的把它理解为re中compile后的match,只不过多个W()间出现的顺序可以变化。这样通过多个定制的W()和Star(Any(), greedy=False)(相当于.*?)这种通配符的组合,我们就定义了一组匹配规则,当遇到符合该规则的句子时,就选取该规则后action对应的查询模板。

例如当输入为“周星驰是谁”这样的问题时,会匹配到rules 中的 第一条规则。而后执行该规则后对应的action, who_is_question。而who_is_question对应的查询模板为:

def who_is_question(x):select = u"?x0"               sparql = Nonefor w in x:if w.pos == "nr" or w.pos == "x":e = u" ?a :actor_chName '{person}'. \n \ ?a :actor_bio ?x0".format(person=w.token.decode("utf-8"))sparql = SPARQL_TEM.format(preamble=SPARQL_PREAMBLE,select=select,expression=INDENT + e)breakreturn sparql

有了查询模板后,我们通过SPARQLWrapper 模块的SPARQLWrapper 执行该查询,并对返回的结果进行转换得到回答。对应的代码如下:

from SPARQLWrapper import SPARQLWrapper, JSON    
from utils.word_tagging import Tagger
from utils.rules import customize_rules                   if __name__ == "__main__":    print("init...........")    sparql_base = SPARQLWrapper("http://localhost:3030/kg_demo_movie/query")#加载外部词典,提升分词准确性和词性标注准确性tagger = Tagger(['data/actorName.txt', 'data/movieName.txt'])#初始化并获取规则列表rules = customize_rules()   print("done \n")    while True:    print("Please input your question: ")    default_question = raw_input()    # 获取wordclassseg_list = tagger.get_word_objects(default_question)for rule in rules:    # 将规则列表应用到问题上得到查询模板query = rule.apply(seg_list)    if query:    # 设置查询相关sparql_base.setQuery(query)    sparql_base.setReturnFormat(JSON)         # 得到返回结果并做转换results = sparql_base.query().convert()   if not results["results"]["bindings"]:    print("No answer found :(")    continue    for result in results["results"]["bindings"]:print "Result: ", result["x0"]["value"]

这篇关于实践篇(5):基于REfO的简单知识问答的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/393820

相关文章

Spring WebFlux 与 WebClient 使用指南及最佳实践

《SpringWebFlux与WebClient使用指南及最佳实践》WebClient是SpringWebFlux模块提供的非阻塞、响应式HTTP客户端,基于ProjectReactor实现,... 目录Spring WebFlux 与 WebClient 使用指南1. WebClient 概述2. 核心依

MyBatis-Plus 中 nested() 与 and() 方法详解(最佳实践场景)

《MyBatis-Plus中nested()与and()方法详解(最佳实践场景)》在MyBatis-Plus的条件构造器中,nested()和and()都是用于构建复杂查询条件的关键方法,但... 目录MyBATis-Plus 中nested()与and()方法详解一、核心区别对比二、方法详解1.and()

Spring Boot @RestControllerAdvice全局异常处理最佳实践

《SpringBoot@RestControllerAdvice全局异常处理最佳实践》本文详解SpringBoot中通过@RestControllerAdvice实现全局异常处理,强调代码复用、统... 目录前言一、为什么要使用全局异常处理?二、核心注解解析1. @RestControllerAdvice2

Spring事务传播机制最佳实践

《Spring事务传播机制最佳实践》Spring的事务传播机制为我们提供了优雅的解决方案,本文将带您深入理解这一机制,掌握不同场景下的最佳实践,感兴趣的朋友一起看看吧... 目录1. 什么是事务传播行为2. Spring支持的七种事务传播行为2.1 REQUIRED(默认)2.2 SUPPORTS2

Java中的雪花算法Snowflake解析与实践技巧

《Java中的雪花算法Snowflake解析与实践技巧》本文解析了雪花算法的原理、Java实现及生产实践,涵盖ID结构、位运算技巧、时钟回拨处理、WorkerId分配等关键点,并探讨了百度UidGen... 目录一、雪花算法核心原理1.1 算法起源1.2 ID结构详解1.3 核心特性二、Java实现解析2.

MySQL 中 ROW_NUMBER() 函数最佳实践

《MySQL中ROW_NUMBER()函数最佳实践》MySQL中ROW_NUMBER()函数,作为窗口函数为每行分配唯一连续序号,区别于RANK()和DENSE_RANK(),特别适合分页、去重... 目录mysql 中 ROW_NUMBER() 函数详解一、基础语法二、核心特点三、典型应用场景1. 数据分

深度解析Spring AOP @Aspect 原理、实战与最佳实践教程

《深度解析SpringAOP@Aspect原理、实战与最佳实践教程》文章系统讲解了SpringAOP核心概念、实现方式及原理,涵盖横切关注点分离、代理机制(JDK/CGLIB)、切入点类型、性能... 目录1. @ASPect 核心概念1.1 AOP 编程范式1.2 @Aspect 关键特性2. 完整代码实

MySQL 用户创建与授权最佳实践

《MySQL用户创建与授权最佳实践》在MySQL中,用户管理和权限控制是数据库安全的重要组成部分,下面详细介绍如何在MySQL中创建用户并授予适当的权限,感兴趣的朋友跟随小编一起看看吧... 目录mysql 用户创建与授权详解一、MySQL用户管理基础1. 用户账户组成2. 查看现有用户二、创建用户1. 基

Spring Boot 实现 IP 限流的原理、实践与利弊解析

《SpringBoot实现IP限流的原理、实践与利弊解析》在SpringBoot中实现IP限流是一种简单而有效的方式来保障系统的稳定性和可用性,本文给大家介绍SpringBoot实现IP限... 目录一、引言二、IP 限流原理2.1 令牌桶算法2.2 漏桶算法三、使用场景3.1 防止恶意攻击3.2 控制资源

springboot项目中整合高德地图的实践

《springboot项目中整合高德地图的实践》:本文主要介绍springboot项目中整合高德地图的实践,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一:高德开放平台的使用二:创建数据库(我是用的是mysql)三:Springboot所需的依赖(根据你的需求再