将stanfordcorenlp的tokenizer换成自定义的(或用stanfordcorenlp对自定义tokenizer分词后的结果做ner)

2024-06-09 00:44

本文主要是介绍将stanfordcorenlp的tokenizer换成自定义的(或用stanfordcorenlp对自定义tokenizer分词后的结果做ner),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文是基于中文语料做的,对于英文语料应该也是同理,即同样适用的。

分析stanfordcorenlp的分词结果,可以发现,它好像是对最小的中文词进行分词,即其对中文的分词粒度很小,这对于某些nlp场景可能就不太合适了,自然的就想到能不能将stanfordcorenlp中用于分词的tokenizer替换掉,替换成自定义的,这样就可以控制中文分词结果是你想要的了。

基于以上动机,我查找了相关资料,发现需要对下载到的stanfordcorenlp的原文件夹中的tokensregex中的代码进行修改。我认为这样直接修改源文件容易使整个文件出错而不能用,也不太敢改,所以我就想到了另一种思路:

我直接改tokenizer比较难,那么我直接给你我分词后的结果,你根据我的分词结果帮我做ner(命名体识别)任务可以吗?

我又去查找了相关资料,发现只要将原本的nlp.ner(sentence)替换成nlp.annotate(...)即可,详细的代码如下:

nlp = StanfordCoreNLP(r'D:\stanford-corenlp-full-2016-10-31', port=8098, lang='zh')#,quiet=False,logging_level=logging.DEBUG)  后面的quiet和logging_level是用于显示日志信息,便于报错是寻找bugner_result = nlp.annotate(sentence,properties={
'annotators': 'ner',
'tokenize.language': 'Whitespace',
'pipelineLanguage':'zh', # 这个参数要加上,对中文才起作用
'outputFormat': 'json'
})print(ner_result)

这样运行以上代码,就可以得到 按照你给的中文分词结果,然后利用stanfordcorenlp做ner的结果,如下所示:

输入的分词后以空格连接的句子:
被 扶养 人 生活费 43821.84 元 ;利用stanfordcorenlp做ner的结果:(json格式)
{"sentences":[{"index":0,"tokens":[{"index":1,"word":"被","originalText":"被","lemma":"被","characterOffsetBegin":0,"characterOffsetEnd":1,"pos":"LB","ner":"O"},{"index":2,"word":"扶养","originalText":"扶养","lemma":"扶养","characterOffsetBegin":2,"characterOffsetEnd":4,"pos":"VV","ner":"O"},{"index":3,"word":"人","originalText":"人","lemma":"人","characterOffsetBegin":5,"characterOffsetEnd":6,"pos":"NN","ner":"O"},{"index":4,"word":"生活费","originalText":"生活费","lemma":"生活费","characterOffsetBegin":7,"characterOffsetEnd":10,"pos":"NN","ner":"O"},{"index":5,"word":"43821.84","originalText":"43821.84","lemma":"43821.84","characterOffsetBegin":11,"characterOffsetEnd":19,"pos":"CD","ner":"MONEY","normalizedNER":"元43821.84"},{"index":6,"word":"元","originalText":"元","lemma":"元","characterOffsetBegin":20,"characterOffsetEnd":21,"pos":"M","ner":"MONEY","normalizedNER":"元43821.84"},{"index":7,"word":";","originalText":";","lemma":";","characterOffsetBegin":22,"characterOffsetEnd":23,"pos":"PU","ner":"O"}]}]}

一种方法解决不了问题,有时候采用迂回的策略就可以相对容易的解决问题了hh

这里是希望你能越来越好的 小白冲鸭 ~~~

这篇关于将stanfordcorenlp的tokenizer换成自定义的(或用stanfordcorenlp对自定义tokenizer分词后的结果做ner)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1043776

相关文章

Vite 打包目录结构自定义配置小结

《Vite打包目录结构自定义配置小结》在Vite工程开发中,默认打包后的dist目录资源常集中在asset目录下,不利于资源管理,本文基于Rollup配置原理,本文就来介绍一下通过Vite配置自定义... 目录一、实现原理二、具体配置步骤1. 基础配置文件2. 配置说明(1)js 资源分离(2)非 JS 资

聊聊springboot中如何自定义消息转换器

《聊聊springboot中如何自定义消息转换器》SpringBoot通过HttpMessageConverter处理HTTP数据转换,支持多种媒体类型,接下来通过本文给大家介绍springboot中... 目录核心接口springboot默认提供的转换器如何自定义消息转换器Spring Boot 中的消息

Python自定义异常的全面指南(入门到实践)

《Python自定义异常的全面指南(入门到实践)》想象你正在开发一个银行系统,用户转账时余额不足,如果直接抛出ValueError,调用方很难区分是金额格式错误还是余额不足,这正是Python自定义异... 目录引言:为什么需要自定义异常一、异常基础:先搞懂python的异常体系1.1 异常是什么?1.2

Linux中的自定义协议+序列反序列化用法

《Linux中的自定义协议+序列反序列化用法》文章探讨网络程序在应用层的实现,涉及TCP协议的数据传输机制、结构化数据的序列化与反序列化方法,以及通过JSON和自定义协议构建网络计算器的思路,强调分层... 目录一,再次理解协议二,序列化和反序列化三,实现网络计算器3.1 日志文件3.2Socket.hpp

C语言自定义类型之联合和枚举解读

《C语言自定义类型之联合和枚举解读》联合体共享内存,大小由最大成员决定,遵循对齐规则;枚举类型列举可能值,提升可读性和类型安全性,两者在C语言中用于优化内存和程序效率... 目录一、联合体1.1 联合体类型的声明1.2 联合体的特点1.2.1 特点11.2.2 特点21.2.3 特点31.3 联合体的大小1

idea的终端(Terminal)cmd的命令换成linux的命令详解

《idea的终端(Terminal)cmd的命令换成linux的命令详解》本文介绍IDEA配置Git的步骤:安装Git、修改终端设置并重启IDEA,强调顺序,作为个人经验分享,希望提供参考并支持脚本之... 目录一编程、设置前二、前置条件三、android设置四、设置后总结一、php设置前二、前置条件

springboot自定义注解RateLimiter限流注解技术文档详解

《springboot自定义注解RateLimiter限流注解技术文档详解》文章介绍了限流技术的概念、作用及实现方式,通过SpringAOP拦截方法、缓存存储计数器,结合注解、枚举、异常类等核心组件,... 目录什么是限流系统架构核心组件详解1. 限流注解 (@RateLimiter)2. 限流类型枚举 (

SpringBoot 异常处理/自定义格式校验的问题实例详解

《SpringBoot异常处理/自定义格式校验的问题实例详解》文章探讨SpringBoot中自定义注解校验问题,区分参数级与类级约束触发的异常类型,建议通过@RestControllerAdvice... 目录1. 问题简要描述2. 异常触发1) 参数级别约束2) 类级别约束3. 异常处理1) 字段级别约束

SpringBoot+EasyExcel实现自定义复杂样式导入导出

《SpringBoot+EasyExcel实现自定义复杂样式导入导出》这篇文章主要为大家详细介绍了SpringBoot如何结果EasyExcel实现自定义复杂样式导入导出功能,文中的示例代码讲解详细,... 目录安装处理自定义导出复杂场景1、列不固定,动态列2、动态下拉3、自定义锁定行/列,添加密码4、合并

Java实现自定义table宽高的示例代码

《Java实现自定义table宽高的示例代码》在桌面应用、管理系统乃至报表工具中,表格(JTable)作为最常用的数据展示组件,不仅承载对数据的增删改查,还需要配合布局与视觉需求,而JavaSwing... 目录一、项目背景详细介绍二、项目需求详细介绍三、相关技术详细介绍四、实现思路详细介绍五、完整实现代码