自然语言处理-结巴分词实践

2024-01-10 20:30

本文主要是介绍自然语言处理-结巴分词实践,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 安装包
    • 方法1
    • 方法2
  • 代码

安装包

方法1

首先安装jieba包,我用了虚拟环境首先激活到我自己的TensorFlow(为自己取名的包)环境中,然后pip install jiba 安装

activate TensorFlow

方法2

当然也可以直接在anaconda中进行安装
在这里插入图片描述

代码

导入包

import jieba
text='我是练习时长两年半的个人练习生蔡徐坤,我喜欢唱跳rap和篮球'
text

在这里插入图片描述
数出分好的word_list但是返回的是内存地址

word_list=jieba.cut(text)
print(word_list)

在这里插入图片描述

print(list(word_list))# 缺省是精确模式

在这里插入图片描述
全模式是把中间的语义都写了进去,比如练习生,他包括练习和练习生,精确模式是判断的最有可能的语义

word_list=jieba.cut(text,cut_all=False)
print("精确模式分词结果为:"+"/".join(word_list))# 全模式

在这里插入图片描述

word_list=jieba.cut_for_search(text)
print("搜索引擎分词结果为:"+"/".join(word_list))# 搜索引擎模式

在这里插入图片描述
也可以结果直接返回列表

# 把结果直接返回列表
word_list=jieba.lcut(text)
print(word_list)

在这里插入图片描述
搜索引擎模式也有这个功能

# 把结果直接返回列表
word_list=jieba.lcut_for_search(text)
print(word_list)

在这里插入图片描述
如果有些单词本身也是一体的,我不想分开比如蔡徐坤和练习生

#如何把练习生和蔡徐坤也作为一体 ,在当前目录
jieba.load_userdict('mydict.txt')

在本地建一个mydict.txt,内部如下

在这里插入图片描述

word_list=jieba.lcut(text)
print(word_list)

在这里插入图片描述

这篇关于自然语言处理-结巴分词实践的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/591978

相关文章

Java 的ArrayList集合底层实现与最佳实践

《Java的ArrayList集合底层实现与最佳实践》本文主要介绍了Java的ArrayList集合类的核心概念、底层实现、关键成员变量、初始化机制、容量演变、扩容机制、性能分析、核心方法源码解析、... 目录1. 核心概念与底层实现1.1 ArrayList 的本质1.1.1 底层数据结构JDK 1.7

JDK21对虚拟线程的几种用法实践指南

《JDK21对虚拟线程的几种用法实践指南》虚拟线程是Java中的一种轻量级线程,由JVM管理,特别适合于I/O密集型任务,:本文主要介绍JDK21对虚拟线程的几种用法,文中通过代码介绍的非常详细,... 目录一、参考官方文档二、什么是虚拟线程三、几种用法1、Thread.ofVirtual().start(

从基础到高级详解Go语言中错误处理的实践指南

《从基础到高级详解Go语言中错误处理的实践指南》Go语言采用了一种独特而明确的错误处理哲学,与其他主流编程语言形成鲜明对比,本文将为大家详细介绍Go语言中错误处理详细方法,希望对大家有所帮助... 目录1 Go 错误处理哲学与核心机制1.1 错误接口设计1.2 错误与异常的区别2 错误创建与检查2.1 基础

解决docker目录内存不足扩容处理方案

《解决docker目录内存不足扩容处理方案》文章介绍了Docker存储目录迁移方法:因系统盘空间不足,需将Docker数据迁移到更大磁盘(如/home/docker),通过修改daemon.json配... 目录1、查看服务器所有磁盘的使用情况2、查看docker镜像和容器存储目录的空间大小3、停止dock

springboot依靠security实现digest认证的实践

《springboot依靠security实现digest认证的实践》HTTP摘要认证通过加密参数(如nonce、response)验证身份,避免明文传输,但存在密码存储风险,相比基本认证更安全,却因... 目录概述参数Demopom.XML依赖Digest1Application.JavaMyPasswo

5 种使用Python自动化处理PDF的实用方法介绍

《5种使用Python自动化处理PDF的实用方法介绍》自动化处理PDF文件已成为减少重复工作、提升工作效率的重要手段,本文将介绍五种实用方法,从内置工具到专业库,帮助你在Python中实现PDF任务... 目录使用内置库(os、subprocess)调用外部工具使用 PyPDF2 进行基本 PDF 操作使用

分析 Java Stream 的 peek使用实践与副作用处理方案

《分析JavaStream的peek使用实践与副作用处理方案》StreamAPI的peek操作是中间操作,用于观察元素但不终止流,其副作用风险包括线程安全、顺序混乱及性能问题,合理使用场景有限... 目录一、peek 操作的本质:有状态的中间操作二、副作用的定义与风险场景1. 并行流下的线程安全问题2. 顺

Java 结构化并发Structured Concurrency实践举例

《Java结构化并发StructuredConcurrency实践举例》Java21结构化并发通过作用域和任务句柄统一管理并发生命周期,解决线程泄漏与任务追踪问题,提升代码安全性和可观测性,其核心... 目录一、结构化并发的核心概念与设计目标二、结构化并发的核心组件(一)作用域(Scopes)(二)任务句柄

Java中的Schema校验技术与实践示例详解

《Java中的Schema校验技术与实践示例详解》本主题详细介绍了在Java环境下进行XMLSchema和JSONSchema校验的方法,包括使用JAXP、JAXB以及专门的JSON校验库等技术,本文... 目录1. XML和jsON的Schema校验概念1.1 XML和JSON校验的必要性1.2 Sche

SpringBoot集成WebService(wsdl)实践

《SpringBoot集成WebService(wsdl)实践》文章介绍了SpringBoot项目中通过缓存IWebService接口实现类的泛型入参类型,减少反射调用提升性能的实现方案,包含依赖配置... 目录pom.XML创建入口ApplicationContextUtils.JavaJacksonUt