使用Spacy做中文词频和词性分析

2024-02-16 00:12

本文主要是介绍使用Spacy做中文词频和词性分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

使用Spacy python库做中文词性和词频分析,读取word并给出其中每个词的词频和词性,写入excel表。

1、为什么选择Spacy库
相比与NLTK这个库更快和更准
2、模型比较
zh_core_web_trf模型,模型大,准确性高。
需要确保你的Spacy版本是最新的,因为zh_core_web_trf是一个基于transformer的模型,因为它包含了整个transformer模型。下载和加载这个模型可能需要一些时间,并且会占用较多的内存。

传统的模型如zh_core_web_sm,模型小准确性低

3、常见问题
模型下不下来,直接去github下载whl或者在csdn上下载我的资源。

cd /your_path
pip install  xx.whl

4、代码
代码如下

import pandas as pd
from docx import Document
import spacy# 加载Spacy的中文模型
nlp = spacy.load('zh_core_web_trf')# 读取Word文档
path_r=r"xx.docx"
doc = Document(path_r)
text = ' '.join([paragraph.text for paragraph in doc.paragraphs])# 分析文本
tokens = nlp(text)
word_freq = {}for token in tokens:if token.text in word_freq:word_freq[token.text] += 1else:word_freq[token.text] = 1# 提取词性和词频
results = []
for token in tokens:results.append([token.text, token.pos_, word_freq[token.text]])# 转换为DataFrame
df = pd.DataFrame(results, columns=['词', '词性', '词频'])# 写入Excel
df.to_excel('analysis_results.xlsx', index=False)

在没有GPU的情况下,模型推理巨慢无比,可以考虑使用以下的多进程方式,其中nlp = spacy.load(‘zh_core_web_trf’)可能无法pickle,需要放入analyze_text(paragraph_text, nlp)函数内部。

import pandas as pd
from docx import Document
import spacy
from multiprocessing import Pool, cpu_count
from functools import partial
import itertools# 加载Spacy的中文模型
nlp = spacy.load('zh_core_web_trf')def analyze_text(paragraph_text, nlp):# 分析文本段落tokens = nlp(paragraph_text)word_freq = {}for token in tokens:if token.text in word_freq:word_freq[token.text] += 1else:word_freq[token.text] = 1# 提取词性和词频results = []for token in tokens:results.append([token.text, token.pos_, word_freq[token.text]])return resultsdef main():# 读取Word文档path_r = r"C:\Users\xueshifeng\Desktop\合并.docx"try:doc = Document(path_r)except Exception as e:print(f"Error occurred while loading the document: {e}")returntext = ' '.join([paragraph.text for paragraph in doc.paragraphs])# 分割文本到段落级别(考虑实际情况调整)paragraphs = [p for p in text.split('
') if p.strip()]# 创建一个进程池with Pool(processes=cpu_count()) as pool:# 为每个进程创建一个新的nlp实例with nlp.disable_pipes(*nlp.pipe_names):analyze_text_with_nlp = partial(analyze_text, nlp=nlp.clone())results = pool.map(analyze_text_with_nlp, paragraphs)# 直接构建DataFrameflat_results = list(itertools.chain.from_iterable(results))df = pd.DataFrame(flat_results, columns=['词', '词性', '词频'])# 写入Exceldf.to_excel('analysis_results.xlsx', index=False)if __name__ == "__main__":main()

这篇关于使用Spacy做中文词频和词性分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/712950

相关文章

Python ORM神器之SQLAlchemy基本使用完全指南

《PythonORM神器之SQLAlchemy基本使用完全指南》SQLAlchemy是Python主流ORM框架,通过对象化方式简化数据库操作,支持多数据库,提供引擎、会话、模型等核心组件,实现事务... 目录一、什么是SQLAlchemy?二、安装SQLAlchemy三、核心概念1. Engine(引擎)

Java Stream 并行流简介、使用与注意事项小结

《JavaStream并行流简介、使用与注意事项小结》Java8并行流基于StreamAPI,利用多核CPU提升计算密集型任务效率,但需注意线程安全、顺序不确定及线程池管理,可通过自定义线程池与C... 目录1. 并行流简介​特点:​2. 并行流的简单使用​示例:并行流的基本使用​3. 配合自定义线程池​示

GO语言中函数命名返回值的使用

《GO语言中函数命名返回值的使用》在Go语言中,函数可以为其返回值指定名称,这被称为命名返回值或命名返回参数,这种特性可以使代码更清晰,特别是在返回多个值时,感兴趣的可以了解一下... 目录基本语法函数命名返回特点代码示例命名特点基本语法func functionName(parameters) (nam

使用shardingsphere实现mysql数据库分片方式

《使用shardingsphere实现mysql数据库分片方式》本文介绍如何使用ShardingSphere-JDBC在SpringBoot中实现MySQL水平分库,涵盖分片策略、路由算法及零侵入配置... 目录一、ShardingSphere 简介1.1 对比1.2 核心概念1.3 Sharding-Sp

Java 正则表达式的使用实战案例

《Java正则表达式的使用实战案例》本文详细介绍了Java正则表达式的使用方法,涵盖语法细节、核心类方法、高级特性及实战案例,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要... 目录一、正则表达式语法详解1. 基础字符匹配2. 字符类([]定义)3. 量词(控制匹配次数)4. 边

Python Counter 函数使用案例

《PythonCounter函数使用案例》Counter是collections模块中的一个类,专门用于对可迭代对象中的元素进行计数,接下来通过本文给大家介绍PythonCounter函数使用案例... 目录一、Counter函数概述二、基本使用案例(一)列表元素计数(二)字符串字符计数(三)元组计数三、C

使用Spring Cache本地缓存示例代码

《使用SpringCache本地缓存示例代码》缓存是提高应用程序性能的重要手段,通过将频繁访问的数据存储在内存中,可以减少数据库访问次数,从而加速数据读取,:本文主要介绍使用SpringCac... 目录一、Spring Cache简介核心特点:二、基础配置1. 添加依赖2. 启用缓存3. 缓存配置方案方案

使用Python的requests库来发送HTTP请求的操作指南

《使用Python的requests库来发送HTTP请求的操作指南》使用Python的requests库发送HTTP请求是非常简单和直观的,requests库提供了丰富的API,可以发送各种类型的HT... 目录前言1. 安装 requests 库2. 发送 GET 请求3. 发送 POST 请求4. 发送

Nginx中配置使用非默认80端口进行服务的完整指南

《Nginx中配置使用非默认80端口进行服务的完整指南》在实际生产环境中,我们经常需要将Nginx配置在其他端口上运行,本文将详细介绍如何在Nginx中配置使用非默认端口进行服务,希望对大家有所帮助... 目录一、为什么需要使用非默认端口二、配置Nginx使用非默认端口的基本方法2.1 修改listen指令

Python WebSockets 库从基础到实战使用举例

《PythonWebSockets库从基础到实战使用举例》WebSocket是一种全双工、持久化的网络通信协议,适用于需要低延迟的应用,如实时聊天、股票行情推送、在线协作、多人游戏等,本文给大家介... 目录1. 引言2. 为什么使用 WebSocket?3. 安装 WebSockets 库4. 使用 We