3.jieba分词+es实现KBQA问答系统

2023-10-24 18:40

本文主要是介绍3.jieba分词+es实现KBQA问答系统,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1.jieba分词
jieba分词号称是最好的中文分词器,目前Python版本在运维,Java版本很久没有更新了。
jieba能实现什么功能呢?我们通过下面的TEST可以看下:
我们实现一个例子:
如:系统提问“拍拍贷利率是多少”

@Testpublic void testReadJiebaDict(){/**JiebaSegmenter:分词器,WordDictionary:词典*/String filePath = HanlpTest.class.getClassLoader().getResource("yrz.txt").getFile();/**加载用户自定义词典*/WordDictionary.getInstance().loadUserDict(Paths.get(new File(filePath).getAbsolutePath()));JiebaSegmenter segmenter = new JiebaSegmenter();System.out.println(segmenter.process("拍拍贷利率是多少",JiebaSegmenter.SegMode.INDEX,true));}

本例中加载了我们自定义的的词库yrz.txt后输出如下结果:

[[拍拍贷, 0, 3, pt], [利率, 3, 5, re], [, 5, 6, v], [多少, 7, 9, m]]

yrz.txt我们定义了什么呢?
内容如下:

拍拍贷 3 pt
利率 3 re
利息 3 re
额度 3 at

这里只是部分词库的内容,我们可以看到,jieba安装我们的词库定义帮我们进行了分词,这就是分词器的作用。
从结果我们还可以看到,pt,re,v,m等代号,jieba中将这些称为词性。由于jieba分词器Java版本最后一个版本还是2014年。词性识别的功能再该版本里还未实现,熟悉Python的同学可以去看下,Python中是实现了词性识别的功能。
这里我们对源码进行稍微改造,贴出部分代码
词性枚举类:

/*** @filename PartOfSpeech* @description 词性枚举* @author will* @date 2019/4/12 11:26*/
public enum PartOfSpeech {i, w, n, nr, ns, nt, nz, ng, nrt, nrfg, v, vd, vn, vi, vg, a, ad, an, ag, m, mh,mb, mf, mx, mq, mg, q, r, rr, rz, rg, d, df, dg, p, c, u, ul, uv, ud, uj, uz, ug, o, e, t, tg, tq, tdq,s, f, b, y, z, zg, l, g, j, jn, x, xx, xu, k, h,cy,pt,re,at;/*** 判断枚举是否存在* @param _name* @return boolean* @author will* @date 2019/5/13 9:29*/public static boolean contains(String _name) {PartOfSpeech[] season = values();for (PartOfSpeech s : season) {if (s.name().equals(_name)) {return true;}}return false;}
}

枚举类中定义了我们所有词性的代码。

词性识别工具类:
这里我们通过Trie树(字典树)实现,部分代码如下:

/*** @filename PartOfSpeechTagging* @description 词性标注* @author will* @date 2019/4/12 11:26*/
public class PartOfSpeechTagging {private final Trie<String, PartOfSpeech> wordTagTrie;private static final String DEFAULT_TAG_FILE = "/dict.txt";private static final String CUSTOM_TAG_FILE = "/yrz.txt";private static PartOfSpeechTagging singleton;public static PartOfSpeechTagging getInstance() {if (singleton == null) {synchronized (WordDictionary.class) {if (singleton == null) {singleton = new PartOfSpeechTagging();return singleton;}}}return singleton;}private PartOfSpeechTagging() {wordTagTrie = new PatriciaTrie<PartOfSpeech>();try {/**加载默认字典*/load(DEFAULT_TAG_FILE, wordTagTrie);/**加载用户自定义字典*/load(CUSTOM_TAG_FILE, wordTagTrie);} catch (Exception e) {throw new RuntimeException(e);}}private int load(String path, Trie<String, PartOfSpeech> trie) throws IOException {int count = 0;InputStream is = this.getClass().getResourceAsStream(path);try {BufferedReader br = new BufferedReader(new InputStreamReader(is, Charset.forName("UTF-8")));while (br.ready()) {String line = br.readLine();if (line.startsWith("#")) {continue;}count++;/**根据空格截取用户字典*/String[] attr = line.trim().split("[\t ]+");if (attr.length < 1) {// Ignore empty linecontinue;}if (attr.length == 3 && PartOfSpeech.contains(attr[2])) {trie.put(attr[0], PartOfSpeech.valueOf(attr[2]));} else {trie.put(attr[0], PartOfSpeech.i);}}} catch (IOException e) {throw e;} finally {try {if (null != is)is.close();} catch (IOException e) {throw e;}}return count;}/*** 获取词的对应词性* @param wordText* @return com.huaban.analysis.jieba.word.PartOfSpeech* @author will* @date 2019/5/13 9:53*/public PartOfSpeech process(String wordText) {PartOfSpeech pos = wordTagTrie.get(wordText);return pos;}
}

trie,又称前缀树或字典樹,是一种有序树,用于保存关联数组,其中的键通常是字符串。 与二叉查找树不同,键不是直接保存在节点中,而是由节点在树中的位置决定。 一个节点的所有子孙都有相同的前缀,也就是这个节点对应的字符串,而根节点对应空字符串。

修改源码,JiebaSegmenter(分词器类),这里我们修改process方法:

 public List<SegToken> process(String paragraph, SegMode mode, boolean tagging) {List<SegToken> tokens = new ArrayList<SegToken>();StringBuilder sb = new StringBuilder();int offset = 0;for (int i = 0; i < paragraph.length(); ++i) {char ch = CharacterUtil.regularize(paragraph.charAt(i));if (CharacterUtil.ccFind(ch))sb.append(ch);else {if (sb.length() > 0) {// processif (mode == SegMode.SEARCH) {for (String word : sentenceProcess(sb.toString())) {if (tagging) {tokens.add(new SegToken(word, offset, offset += word.length(), partOfSpeechTagging.process(word)));} else {tokens.add(new SegToken(word, offset, offset += word.length()));}}} else {for (String token : sentenceProcess(sb.toString())) {if (token.length() > 2) {String gram2;int j = 0;for (; j < token.length() - 1; ++j) {gram2 = token.substring(j, j + 2);if (wordDict.containsWord(gram2))if (tagging) {tokens.add(new SegToken(gram2, offset + j, offset + j + 2,partOfSpeechTagging.process(gram2)));} else {tokens.add(new SegToken(gram2, offset + j, offset + j + 2));}}}if (token.length() > 3) {String gram3;int j = 0;for (; j < token.length() - 2; ++j) {gram3 = token.substring(j, j + 3);if (wordDict.containsWord(gram3)) {if (tagging) {tokens.add(new SegToken(gram3, offset + j, offset + j + 3,partOfSpeechTagging.process(gram3)));} else {tokens.add(new SegToken(gram3, offset + j, offset + j + 3));}}}}if (tagging) {tokens.add(new SegToken(token, offset, offset += token.length(), partOfSpeechTagging.process(token)));} else {tokens.add(new SegToken(token, offset, offset += token.length()));}}}sb = new StringBuilder();offset = i;}if(tagging){tokens.add(new SegToken(paragraph.substring(i, i + 1), offset, ++offset, partOfSpeechTagging.process(paragraph.substring(i, i + 1))));} else {tokens.add(new SegToken(paragraph.substring(i, i + 1), offset, ++offset));}}}if (sb.length() > 0)if (mode == SegMode.SEARCH) {for (String token : sentenceProcess(sb.toString())) {if(tagging){tokens.add(new SegToken(token, offset, offset += token.length(), partOfSpeechTagging.process(token)));}else {tokens.add(new SegToken(token, offset, offset += token.length()));}}} else {for (String token : sentenceProcess(sb.toString())) {if (token.length() > 2) {String gram2;int j = 0;for (; j < token.length() - 1; ++j) {gram2 = token.substring(j, j + 2);if (wordDict.containsWord(gram2)) {if(tagging){tokens.add(new SegToken(gram2, offset + j, offset + j + 2, partOfSpeechTagging.process(gram2)));}else {tokens.add(new SegToken(gram2, offset + j, offset + j + 2));}}}}if (token.length() > 3) {String gram3;int j = 0;for (; j < token.length() - 2; ++j) {gram3 = token.substring(j, j + 3);if (wordDict.containsWord(gram3)) {if(tagging) {tokens.add(new SegToken(gram3, offset + j, offset + j + 3, partOfSpeechTagging.process(gram3)));}else{tokens.add(new SegToken(gram3, offset + j, offset + j + 3));}}}}if(tagging){tokens.add(new SegToken(token, offset, offset += token.length(), partOfSpeechTagging.process(token)));}else {tokens.add(new SegToken(token, offset, offset += token.length()));}}}return tokens;}

主要在原有方法: tokens.add(new SegToken(word, offset, offset += word.length(), partOfSpeechTagging.process(word)));添加了:partOfSpeechTagging.process(word),我们拿到词,通过调用我们自定义的process方法获取trie数中对应的词的词性。

2.KBQA实现
关于KBQA的介绍网上有很多的资料,我这里只介绍一种实现方式:
我们首先建立我们的es知识库:
在这里插入图片描述
知识库中非常简单列举了公司对应的产品及产品描述,利率,额度等。
那在es查询是如何进行推理的呢?
1).知识库初始化到es中时我们首先会对存放到es中的数据进行分词(通过IK Analysis分词器)。

PUT http://10.168.14.40:8200/yrz
{"settings" : {"number_of_shards" : 3,"number_of_replicas" : 1},"mappings":{"yrz_info":{"properties":{"company":{"type":"text","analyzer": "ik_max_word"},"product":{"type":"text","analyzer": "ik_smart"},"synopsis":{"type":"text","analyzer": "ik_smart"},"amount":{"type":"text","analyzer": "ik_smart"},"rate":{"type":"text","analyzer": "ik_smart"},"content":{"type":"text","analyzer": "ik_smart"}}}}
}

2).在加载数据时,属性之间是没有关联的,具体关系在自己使用的时候可以来定义的(比如“利率”,我们不知道要怎么对应到知识库中的rate字段)。
3).实现我们的jieba分词后的词性与es知识库中字段的关联,我们就要设定对应的规则(这里推荐一个Python示例:https://github.com/keyue123/poemElasticDemo)。
4).我们通过一个简单示例来看下:
比如:“拍拍贷利率是多少?”,jieba分词后我们可以得到:[[拍拍贷, 0, 3, pt], [利率, 3, 5, re], [是, 5, 6, v], [多少, 7, 9, m]]
此时我们设定规则(rules),pt对应我们es中的product,re对应es中的rate,然后通过模糊查找与存放在es中的属性值进行句子相似度计算,找到最相似的属性。
相关代码如下:

@Testpublic void searchMutil() throws Exception {//1.TODO 完成jieba分词//2.TODO 完成词性与es字段映射String[] searchTerms = { "product","rate" };MultiSearchTemplateRequest multiRequest = new MultiSearchTemplateRequest();for (String searchTerm : searchTerms) {SearchTemplateRequest request = new SearchTemplateRequest();request.setRequest(new SearchRequest(index));request.setScriptType(ScriptType.INLINE);request.setScript("{\"query\": {\"bool\":{\"must\":{\"query_string\" : {\"default_field\" : \"{{default_value}}\",\"query\" : \"{{query_value}}\"}}}}}");Map<String, Object> scriptParams = new HashMap<>();scriptParams.put("default_value", searchTerm);scriptParams.put("query_value", "拍拍贷利率是多少");scriptParams.put("size", 5);request.setScriptParams(scriptParams);multiRequest.add(request);}MultiSearchTemplateResponse multiResponse = client.msearchTemplate(multiRequest, RequestOptions.DEFAULT);//返回一组响应 ,每个请求对应一个响应for (MultiSearchTemplateResponse.Item item : multiResponse.getResponses()) {if (item.isFailure()) {String error = item.getFailureMessage(); //搜索请求失败返回错误信息System.out.println("error:"+error);}else {SearchTemplateResponse searchTemplateResponse = item.getResponse();SearchResponse response = searchTemplateResponse.getResponse();SearchHits hits = response.getHits();for (SearchHit hit : hits) {if (hit.getScore() >= 0.8){System.out.println(hit.getSourceAsMap().get("product")+"--"+hit.getSourceAsMap().get("rate"));}}}}}

这篇关于3.jieba分词+es实现KBQA问答系统的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/277052

相关文章

SpringBoot中SM2公钥加密、私钥解密的实现示例详解

《SpringBoot中SM2公钥加密、私钥解密的实现示例详解》本文介绍了如何在SpringBoot项目中实现SM2公钥加密和私钥解密的功能,通过使用Hutool库和BouncyCastle依赖,简化... 目录一、前言1、加密信息(示例)2、加密结果(示例)二、实现代码1、yml文件配置2、创建SM2工具

Mysql实现范围分区表(新增、删除、重组、查看)

《Mysql实现范围分区表(新增、删除、重组、查看)》MySQL分区表的四种类型(范围、哈希、列表、键值),主要介绍了范围分区的创建、查询、添加、删除及重组织操作,具有一定的参考价值,感兴趣的可以了解... 目录一、mysql分区表分类二、范围分区(Range Partitioning1、新建分区表:2、分

MySQL 定时新增分区的实现示例

《MySQL定时新增分区的实现示例》本文主要介绍了通过存储过程和定时任务实现MySQL分区的自动创建,解决大数据量下手动维护的繁琐问题,具有一定的参考价值,感兴趣的可以了解一下... mysql创建好分区之后,有时候会需要自动创建分区。比如,一些表数据量非常大,有些数据是热点数据,按照日期分区MululbU

MySQL中查找重复值的实现

《MySQL中查找重复值的实现》查找重复值是一项常见需求,比如在数据清理、数据分析、数据质量检查等场景下,我们常常需要找出表中某列或多列的重复值,具有一定的参考价值,感兴趣的可以了解一下... 目录技术背景实现步骤方法一:使用GROUP BY和HAVING子句方法二:仅返回重复值方法三:返回完整记录方法四:

IDEA中新建/切换Git分支的实现步骤

《IDEA中新建/切换Git分支的实现步骤》本文主要介绍了IDEA中新建/切换Git分支的实现步骤,通过菜单创建新分支并选择是否切换,创建后在Git详情或右键Checkout中切换分支,感兴趣的可以了... 前提:项目已被Git托管1、点击上方栏Git->NewBrancjsh...2、输入新的分支的

Python实现对阿里云OSS对象存储的操作详解

《Python实现对阿里云OSS对象存储的操作详解》这篇文章主要为大家详细介绍了Python实现对阿里云OSS对象存储的操作相关知识,包括连接,上传,下载,列举等功能,感兴趣的小伙伴可以了解下... 目录一、直接使用代码二、详细使用1. 环境准备2. 初始化配置3. bucket配置创建4. 文件上传到os

关于集合与数组转换实现方法

《关于集合与数组转换实现方法》:本文主要介绍关于集合与数组转换实现方法,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、Arrays.asList()1.1、方法作用1.2、内部实现1.3、修改元素的影响1.4、注意事项2、list.toArray()2.1、方

使用Python实现可恢复式多线程下载器

《使用Python实现可恢复式多线程下载器》在数字时代,大文件下载已成为日常操作,本文将手把手教你用Python打造专业级下载器,实现断点续传,多线程加速,速度限制等功能,感兴趣的小伙伴可以了解下... 目录一、智能续传:从崩溃边缘抢救进度二、多线程加速:榨干网络带宽三、速度控制:做网络的好邻居四、终端交互

java实现docker镜像上传到harbor仓库的方式

《java实现docker镜像上传到harbor仓库的方式》:本文主要介绍java实现docker镜像上传到harbor仓库的方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录1. 前 言2. 编写工具类2.1 引入依赖包2.2 使用当前服务器的docker环境推送镜像2.2

C++20管道运算符的实现示例

《C++20管道运算符的实现示例》本文简要介绍C++20管道运算符的使用与实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录标准库的管道运算符使用自己实现类似的管道运算符我们不打算介绍太多,因为它实际属于c++20最为重要的