中文分句的解决方案

2023-10-08 04:40
文章标签 解决方案 中文 分句

本文主要是介绍中文分句的解决方案,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

诸神缄默不语-个人CSDN博文目录

文章目录

  • 1. 手写规则,通过标点符号分句
  • 2. 引号内算一句话
  • 3. spacy包
  • 4. ltp包
  • 5. 相关分句工作参考资料

1. 手写规则,通过标点符号分句

我的写法参考自https://github.com/bojone/bert4keras/blob/master/bert4keras/snippets.py#L336。原函数除直接分句之外,还可以实现按照标点符号在指定长度下进行chunk(指定长度,到该长度就找标点符号进行截断)

def text_segmentate(text, maxlen, seps='\n', strips=None):"""将文本按照标点符号划分为若干个短句"""text = text.strip().strip(strips)if seps and len(text) > maxlen:pieces = text.split(seps[0])text, texts = '', []for i, p in enumerate(pieces):if text and p and len(text) + len(p) > maxlen - 1:texts.extend(text_segmentate(text, maxlen, seps[1:], strips))text = ''if i + 1 == len(pieces):text = text + pelse:text = text + p + seps[0]if text:texts.extend(text_segmentate(text, maxlen, seps[1:], strips))return textselse:return [text]sentences=text_segmentate(original_text,1,'。:();:“”,,')

2. 引号内算一句话

代码来自https://github.com/GLZ1925/-

#coding:utf-8
import retext = "“喂!路明非!你给我站住!”叔叔追了出来,在走廊尽头冲他低吼。路明非实在没时间让他兴师问罪了,只好说:“叔叔我真有事得先走,什么事以后再说!”叔叔可不听他说,跑过来一把抓住他的手:“你小子给我说老实话?是不是在外面惹事了?我看外面都是警车还有流氓,他们都是冲你来的?”“没……没有……”路明非想辩解。“你小子真不是骗我们说上学其实跑日本来混黑道了吧?”叔叔瞪着他。“真不是,这事儿一时没法解释……”叔叔从屁股后面摸出金利来的钱包,打开来夹层里有几张日圆钞票,大概一万多的样子。他把那张万圆大钞塞进路明非手里:“叔叔不知道你惹了什么麻烦,你们年轻人见的世面大,有些事不愿告诉我们大人,我问也没用。我以前也惹过事跑过路,跑路身上千万得有现金!银行卡信用卡跑车都没用!”"
def normal_cut_sentence(text):text = re.sub('([。!?\?])([^’”])',r'\1\n\2',text)#普通断句符号且后面没有引号text = re.sub('(\.{6})([^’”])',r'\1\n\2',text)#英文省略号且后面没有引号text = re.sub('(\…{2})([^’”])',r'\1\n\2',text)#中文省略号且后面没有引号text = re.sub('([.。!?\?\.{6}\…{2}][’”])([^’”])',r'\1\n\2',text)#断句号+引号且后面没有引号return text.split("\n")def cut_sentence_with_quotation_marks(text):p = re.compile("“.*?”")list = []index = 0length = len(text)for i in p.finditer(text):temp = ''start = i.start()end = i.end()for j in range(index, start):temp += text[j]if temp != '':temp_list = normal_cut_sentence(temp)list += temp_listtemp = ''for k in range(start, end):temp += text[k]if temp != ' ':list.append(temp)index = endreturn listif __name__ == '__main__':print(cut_sentence_with_quotation_marks(text))

输出:
['“喂!路明非!你给我站住!”', '叔叔追了出来,在走廊尽头冲他低吼。', '路明非实在没时间让他兴师问罪了,只好说:', '“叔叔我真有事得先走,什么事以后再说!”', '叔叔可不听他说,跑过来一把抓住他的手:', '“你小子给我说老实话?是不是在外面惹事了?我看外面都是警车还有流氓,他们都是冲你来的?”', '“没……没有……”', '路明非想辩解。', '“你小子真不是骗我们说上学其实跑日本来混黑道了吧?”', '叔叔瞪着他。', '“真不是,这事儿一时没法解释……”', '叔叔从屁股后面摸出金利来的钱包,打开来夹层里有几张日圆钞票,大概一万多的样子。', '他把那张万圆大钞塞进路明非手里:', '“叔叔不知道你惹了什么麻烦,你们年轻人见的世面大,有些事不愿告诉我们大人,我问也没用。我以前也惹过事跑过路,跑路身上千万得有现金!银行卡信用卡跑车都没用!”']

3. spacy包

其实也是按标点符号分句

import spacynlp = spacy.load("zh_core_web_sm")
nlp.add_pipe('sentencizer', name='sentence_segmenter', before='parser')doc = nlp(original_text)
for sent in doc.sents:print(sent.text)  #就是这句话

4. ltp包

http://ltp.ai/docs/quickstart.html#id4

pip install ltp

from ltp import StnSplit
sents = StnSplit().split("汤姆生病了。他去了医院。")
# [
#   "汤姆生病了。",
#   "他去了医院。"
# ]sents = StnSplit().batch_split(["他叫汤姆去拿外衣。", "汤姆生病了。他去了医院。"])# [
#   "他叫汤姆去拿外衣。",
#   "汤姆生病了。",
#   "他去了医院。"
# ]

5. 相关分句工作参考资料

(2004 SIGHAN) Segmentation of Chinese Long Sentences Using Commas
(作者是韩国人。感觉怪怪的)
先对逗号根据上下文进行分类,然后根据分类结果进行分句

(2011 ACL) Chinese sentence segmentation as comma classification:也是对逗号进行分类

(2013 International Conference on Asian Language Processing) Recognizing Chinese Elementary Discourse Unit on Comma:也是对逗号进行分类

(2021 ACL-IJCNLP Findings) Better Chinese Sentence Segmentation with Reinforcement Learning

因为中英文分句边界不同,所以中英翻译效果会受损。本文用强化学习训练分割policy,来将中文文本切割为可以独立翻译的片段,以提升翻译质量。

这篇工作中的分句和传统意义上的分句不太一样,它更多是关注翻译领域所应用的一整个文本单位在多语言上的对应关系:
在这里插入图片描述

这篇关于中文分句的解决方案的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/162765

相关文章

Java 线程安全与 volatile与单例模式问题及解决方案

《Java线程安全与volatile与单例模式问题及解决方案》文章主要讲解线程安全问题的五个成因(调度随机、变量修改、非原子操作、内存可见性、指令重排序)及解决方案,强调使用volatile关键字... 目录什么是线程安全线程安全问题的产生与解决方案线程的调度是随机的多个线程对同一个变量进行修改线程的修改操

Redis出现中文乱码的问题及解决

《Redis出现中文乱码的问题及解决》:本文主要介绍Redis出现中文乱码的问题及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1. 问题的产生2China编程. 问题的解决redihttp://www.chinasem.cns数据进制问题的解决中文乱码问题解决总结

全面解析MySQL索引长度限制问题与解决方案

《全面解析MySQL索引长度限制问题与解决方案》MySQL对索引长度设限是为了保持高效的数据检索性能,这个限制不是MySQL的缺陷,而是数据库设计中的权衡结果,下面我们就来看看如何解决这一问题吧... 目录引言:为什么会有索引键长度问题?一、问题根源深度解析mysql索引长度限制原理实际场景示例二、五大解决

SpringSecurity显示用户账号已被锁定的原因及解决方案

《SpringSecurity显示用户账号已被锁定的原因及解决方案》SpringSecurity中用户账号被锁定问题源于UserDetails接口方法返回值错误,解决方案是修正isAccountNon... 目录SpringSecurity显示用户账号已被锁定的解决方案1.问题出现前的工作2.问题出现原因各

javax.net.ssl.SSLHandshakeException:异常原因及解决方案

《javax.net.ssl.SSLHandshakeException:异常原因及解决方案》javax.net.ssl.SSLHandshakeException是一个SSL握手异常,通常在建立SS... 目录报错原因在程序中绕过服务器的安全验证注意点最后多说一句报错原因一般出现这种问题是因为目标服务器

C++高效内存池实现减少动态分配开销的解决方案

《C++高效内存池实现减少动态分配开销的解决方案》C++动态内存分配存在系统调用开销、碎片化和锁竞争等性能问题,内存池通过预分配、分块管理和缓存复用解决这些问题,下面就来了解一下... 目录一、C++内存分配的性能挑战二、内存池技术的核心原理三、主流内存池实现:TCMalloc与Jemalloc1. TCM

MyBatis Plus 中 update_time 字段自动填充失效的原因分析及解决方案(最新整理)

《MyBatisPlus中update_time字段自动填充失效的原因分析及解决方案(最新整理)》在使用MyBatisPlus时,通常我们会在数据库表中设置create_time和update... 目录前言一、问题现象二、原因分析三、总结:常见原因与解决方法对照表四、推荐写法前言在使用 MyBATis

Java死锁问题解决方案及示例详解

《Java死锁问题解决方案及示例详解》死锁是指两个或多个线程因争夺资源而相互等待,导致所有线程都无法继续执行的一种状态,本文给大家详细介绍了Java死锁问题解决方案详解及实践样例,需要的朋友可以参考下... 目录1、简述死锁的四个必要条件:2、死锁示例代码3、如何检测死锁?3.1 使用 jstack3.2

html 滚动条滚动过快会留下边框线的解决方案

《html滚动条滚动过快会留下边框线的解决方案》:本文主要介绍了html滚动条滚动过快会留下边框线的解决方案,解决方法很简单,详细内容请阅读本文,希望能对你有所帮助... 滚动条滚动过快时,会留下边框线但其实大部分时候是这样的,没有多出边框线的滚动条滚动过快时留下边框线的问题通常与滚动条样式和滚动行

Oracle修改端口号之后无法启动的解决方案

《Oracle修改端口号之后无法启动的解决方案》Oracle数据库更改端口后出现监听器无法启动的问题确实较为常见,但并非必然发生,这一问题通常源于​​配置错误或环境冲突​​,而非端口修改本身,以下是系... 目录一、问题根源分析​​​二、保姆级解决方案​​​​步骤1:修正监听器配置文件 (listener.