文章分词/jieba的应用

2024-05-12 15:52
文章标签 应用 文章 分词 jieba

本文主要是介绍文章分词/jieba的应用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1.将字符串中的单词找出,并输出

str1 = "The life is short,you need python"
str1.split()
print(str1.split())['The', 'life', 'is', 'short,you', 'need', 'python']

2.jieba:中文第三方库

pip install jieba(CMD)  //jieba安装

3.jieba分词原理
**依靠中文词库确定汉字之间的组成概率
**汉字之间组成频率大的结果,输出形成分词
**除了分词,还可以自定义添加分词

4.模式类型及描述
精确模式——文本精确分开,不存在冗余单词
全模式——文本中可能存在的词语均会分开,可能会存在冗余单词
搜索引擎模式——在精准分词的基础上,对长词再次进行切割

5.jieba库常用函数
1>精确模式 -jieba.lcut()

 import jieba
c=jieba.lcut("中国是一个伟大的国家")
print(c)['中国', '是', '一个', '伟大', '的', '国家']

2>全模式 -jieba.lcut(s,True)

import jieba
c=jieba.lcut("中国是一个伟大的国家",cut_all = "True")
print(c)
['中国', '国是', '一个', '伟大', '的', '国家']

3>搜索引擎模式 -jieba.lcut_for_search(ss)

import jieba
c=jieba.lcut_for_search("中华人民共和国是伟大的")
print(c)['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '伟大', '的']

4>jieba.add_word(s)

import jieba
c=jieba.add_word("帝光锡华")
print(c)

5>利用分词统计三国演义人物出场次数

I
文件 ->长字符串;read() 定义空字典;counts = {} P(操作):
使用jieba库将文章进行分词,放到列表中,然后遍历列表中的每个词组,同时判断该词组是否在定义的字典中,如果存在,则其计数值+1,否则,将该此作为键值,加入到字典中。
添加

-修改字典元素的方法:counts[key] = 1修改字典元素值的方法:counts[key] = counts[key] +1

“---------------------------------------------------------------------------------------”

import jieba
text = open("三国演义.txt","r",encoding = "utf-8").read()
words = jieba.lcut(text)
counts = {}
for word in words:if len(word) == 1:continueelse:counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key = lambda x:x[1],reserve = True)
for i in range(15):word,count = items[i]print("{0:<10}{1:>5}".format(word,count))

“------------------------------------------------------------------------------------”

import jieba
excludes = {"将军",“却说”,“荆州”,“???”,“???”}
text = open("三国演义","r",enconding="utf-8").read()
words = jieba.lcut(text)
counts = {}
for word in words:
if len(word==1):continue
elif word =="诸葛亮 "  or word == “孔明曰":reword  == "孔明"
elif word =="云长 "  or word == “关公":reword  == "关羽"elif word =="玄德"  or word == “玄德曰":reword  == "刘备”elif word =="孟德 "  or word == “丞相":reword  == "曹操"
else:rword = wordcounts[word] = counts.get(rword,0) + 1for word in excludes:del(counts[word])items = list(counts.items())items.sort(key = lambda x:x[1],reverse = True)for i in range(5)word,count = items[i]print("{0:<10}{1:>5}".format(word,count))

<<百年孤独>>

这篇关于文章分词/jieba的应用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/983067

相关文章

Java Stream流之GroupBy的用法及应用场景

《JavaStream流之GroupBy的用法及应用场景》本教程将详细介绍如何在Java中使用Stream流的groupby方法,包括基本用法和一些常见的实际应用场景,感兴趣的朋友一起看看吧... 目录Java Stream流之GroupBy的用法1. 前言2. 基础概念什么是 GroupBy?Stream

python中列表应用和扩展性实用详解

《python中列表应用和扩展性实用详解》文章介绍了Python列表的核心特性:有序数据集合,用[]定义,元素类型可不同,支持迭代、循环、切片,可执行增删改查、排序、推导式及嵌套操作,是常用的数据处理... 目录1、列表定义2、格式3、列表是可迭代对象4、列表的常见操作总结1、列表定义是处理一组有序项目的

C#中的Converter的具体应用

《C#中的Converter的具体应用》C#中的Converter提供了一种灵活的类型转换机制,本文详细介绍了Converter的基本概念、使用场景,具有一定的参考价值,感兴趣的可以了解一下... 目录Converter的基本概念1. Converter委托2. 使用场景布尔型转换示例示例1:简单的字符串到

Spring Boot Actuator应用监控与管理的详细步骤

《SpringBootActuator应用监控与管理的详细步骤》SpringBootActuator是SpringBoot的监控工具,提供健康检查、性能指标、日志管理等核心功能,支持自定义和扩展端... 目录一、 Spring Boot Actuator 概述二、 集成 Spring Boot Actuat

PyTorch中的词嵌入层(nn.Embedding)详解与实战应用示例

《PyTorch中的词嵌入层(nn.Embedding)详解与实战应用示例》词嵌入解决NLP维度灾难,捕捉语义关系,PyTorch的nn.Embedding模块提供灵活实现,支持参数配置、预训练及变长... 目录一、词嵌入(Word Embedding)简介为什么需要词嵌入?二、PyTorch中的nn.Em

Spring Boot3.0新特性全面解析与应用实战

《SpringBoot3.0新特性全面解析与应用实战》SpringBoot3.0作为Spring生态系统的一个重要里程碑,带来了众多令人兴奋的新特性和改进,本文将深入解析SpringBoot3.0的... 目录核心变化概览Java版本要求提升迁移至Jakarta EE重要新特性详解1. Native Ima

Redis中Stream详解及应用小结

《Redis中Stream详解及应用小结》RedisStreams是Redis5.0引入的新功能,提供了一种类似于传统消息队列的机制,但具有更高的灵活性和可扩展性,本文给大家介绍Redis中Strea... 目录1. Redis Stream 概述2. Redis Stream 的基本操作2.1. XADD

Spring Boot 结合 WxJava 实现文章上传微信公众号草稿箱与群发

《SpringBoot结合WxJava实现文章上传微信公众号草稿箱与群发》本文将详细介绍如何使用SpringBoot框架结合WxJava开发工具包,实现文章上传到微信公众号草稿箱以及群发功能,... 目录一、项目环境准备1.1 开发环境1.2 微信公众号准备二、Spring Boot 项目搭建2.1 创建

JSONArray在Java中的应用操作实例

《JSONArray在Java中的应用操作实例》JSONArray是org.json库用于处理JSON数组的类,可将Java对象(Map/List)转换为JSON格式,提供增删改查等操作,适用于前后端... 目录1. jsONArray定义与功能1.1 JSONArray概念阐释1.1.1 什么是JSONA

nginx -t、nginx -s stop 和 nginx -s reload 命令的详细解析(结合应用场景)

《nginx-t、nginx-sstop和nginx-sreload命令的详细解析(结合应用场景)》本文解析Nginx的-t、-sstop、-sreload命令,分别用于配置语法检... 以下是关于 nginx -t、nginx -s stop 和 nginx -s reload 命令的详细解析,结合实际应