SnowNLP使用自定义语料进行情感分类模型训练

2024-03-05 22:20

本文主要是介绍SnowNLP使用自定义语料进行情感分类模型训练,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

SnowNLP是什么?


SnowNLP是一个功能强大的中文文本处理库,它囊括了中文分词、词性标注、情感分析、文本分类、关键字/摘要提取、TF/IDF、文本相似度等诸多功能,像隐马尔科夫模型、朴素贝叶斯、TextRank等算法均在这个库中有对应的应用。

官方源码文档是这样写的:

SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。注意本程序都是处理的unicode编码,所以使用时请自行decode成unicode。

简而言之就是:SnowNLP是一个Python写的类库,而且是针对中文的自然语言处理库。

主要功能有:

  • 中文分词(Character-Based Generative Model)
  • 词性标注(TnT 3-gram 隐马)
  • 情感分析(现在训练数据主要是买卖东西时的评价,所以对其他的一些可能效果不是很好,待解决)
  • 文本分类(Naive Bayes)
  • 转换成拼音(Trie树实现的最大匹配)
  • 繁体转简体(Trie树实现的最大匹配)
  • 提取文本关键词(TextRank算法)
  • 提取文本摘要(TextRank算法)
  • tf,idf
  • Tokenization(分割成句子)
  • 文本相似(BM25)
  • 支持python3

因为SnowNLP本身使用的语料是电商网站评论,所以,当我们面对不同的使用场景时,它自带的这个模型难免会出现"水土不服"”。因此,如果我们希望得到更接近实际的结果,最好的方案是使用自定义语料进行模型训练。值得庆幸的是,这一切在SnowNLP中实施起来非常简单,并不需要我们去钻研那些高深莫测的算法。至此,就引出了今天这篇博客的主题,即使用自定义语料进行情感分类模型训练。

SnowNLP计算出的情感分数表示语义积极的概率,越接近0情感表现越消极,越接近1情感表现越积极。

我们先来看看如果不重新训练模型,直接使用原生的snownlp结果是什么样的

#SnowNLP基于经典机器学习的贝叶斯算法
from snownlp import SnowNLP
print('"这首歌真难听"的情感得分是:',SnowNLP("这首歌真难听").sentiments)
print('"今天天气真好啊"的情感得分是:',SnowNLP("今天天气真好啊").sentiments)

从结果我们以看出,第一个明显是消极评分,结果确实0.79,明显不符合。第二个也一样,是积极情感,评分也不高。所以我们需要训练自己的情感分析模型才能得出我们想要的结果。

训练模型

关于如何训练情感分析模型的方法有很多,包括基于词典/规则、机器学习、snownlp。本次就讲解最容易上手的snownlp来训练模型。

首先提前准备好消极和积极情感的文本,分别为neg.txt和pos.txt。

# 训练
from snownlp import sentiment
sentiment.train('neg.txt', 'pos.txt')
sentiment.save("sentiment.marshal")

运行之后在同目录下会生成一个sentiment.marshal.3的文件。

接着来到你snownlp的路径下:

 这里建议你备份一下原生的sentiment.marshal.3文件,然后将刚才得到的sentiment.marshal.3文件替换这里的sentiment.marshal.3即可。

接下来我们重新运行上面的测试代码,结果如下:

 此时,我们明显看见了随着模型的改变,效果明显发生变化,模型准确度提高。

测试模型

前面我们已经训练了自己的语料库,得出了模型。接着我们用测试数据来检测模型的准确率。 

# 测试模型效果,导入测试数据
import pandas as pd
data_test = pd.read_excel("test.xlsx")
data_test.head()

sentiment是人工标记的情感标签。

s = []
for c in data_test['comment']:score = SnowNLP(c).sentimentsif score>=0.5:s.append(1)else:s.append(0)
count = np.sum((s == data_test['sentiment'])==1)
print('准确率为:',count/len(data_test))

得出的模型准确率还有待提高,只要前面准备的消极和积极的语料库数据足够大且丰富,这里的准确率就会提高一大截。

应用模型

前面我们已经将模型训练好了,接着我们就开始利用模型给未标记情感分类的评论进行标记。

 以上就是SnowNLP使用自定义语料进行模型训练,希望对学习情感分析的你有所帮助。

参考文档

https://www.cnblogs.com/pengpengdeyuan/p/14479205.html

SnowNLP使用自定义语料进行模型训练(情感分析)_snownlp训练模型-CSDN博客

这篇关于SnowNLP使用自定义语料进行情感分类模型训练的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/778001

相关文章

Python使用Tenacity一行代码实现自动重试详解

《Python使用Tenacity一行代码实现自动重试详解》tenacity是一个专为Python设计的通用重试库,它的核心理念就是用简单、清晰的方式,为任何可能失败的操作添加重试能力,下面我们就来看... 目录一切始于一个简单的 API 调用Tenacity 入门:一行代码实现优雅重试精细控制:让重试按我

MySQL中EXISTS与IN用法使用与对比分析

《MySQL中EXISTS与IN用法使用与对比分析》在MySQL中,EXISTS和IN都用于子查询中根据另一个查询的结果来过滤主查询的记录,本文将基于工作原理、效率和应用场景进行全面对比... 目录一、基本用法详解1. IN 运算符2. EXISTS 运算符二、EXISTS 与 IN 的选择策略三、性能对比

使用Python构建智能BAT文件生成器的完美解决方案

《使用Python构建智能BAT文件生成器的完美解决方案》这篇文章主要为大家详细介绍了如何使用wxPython构建一个智能的BAT文件生成器,它不仅能够为Python脚本生成启动脚本,还提供了完整的文... 目录引言运行效果图项目背景与需求分析核心需求技术选型核心功能实现1. 数据库设计2. 界面布局设计3

使用IDEA部署Docker应用指南分享

《使用IDEA部署Docker应用指南分享》本文介绍了使用IDEA部署Docker应用的四步流程:创建Dockerfile、配置IDEADocker连接、设置运行调试环境、构建运行镜像,并强调需准备本... 目录一、创建 dockerfile 配置文件二、配置 IDEA 的 Docker 连接三、配置 Do

Android Paging 分页加载库使用实践

《AndroidPaging分页加载库使用实践》AndroidPaging库是Jetpack组件的一部分,它提供了一套完整的解决方案来处理大型数据集的分页加载,本文将深入探讨Paging库... 目录前言一、Paging 库概述二、Paging 3 核心组件1. PagingSource2. Pager3.

Python进行JSON和Excel文件转换处理指南

《Python进行JSON和Excel文件转换处理指南》在数据交换与系统集成中,JSON与Excel是两种极为常见的数据格式,本文将介绍如何使用Python实现将JSON转换为格式化的Excel文件,... 目录将 jsON 导入为格式化 Excel将 Excel 导出为结构化 JSON处理嵌套 JSON:

python使用try函数详解

《python使用try函数详解》Pythontry语句用于异常处理,支持捕获特定/多种异常、else/final子句确保资源释放,结合with语句自动清理,可自定义异常及嵌套结构,灵活应对错误场景... 目录try 函数的基本语法捕获特定异常捕获多个异常使用 else 子句使用 finally 子句捕获所

C++11右值引用与Lambda表达式的使用

《C++11右值引用与Lambda表达式的使用》C++11引入右值引用,实现移动语义提升性能,支持资源转移与完美转发;同时引入Lambda表达式,简化匿名函数定义,通过捕获列表和参数列表灵活处理变量... 目录C++11新特性右值引用和移动语义左值 / 右值常见的左值和右值移动语义移动构造函数移动复制运算符

Python对接支付宝支付之使用AliPay实现的详细操作指南

《Python对接支付宝支付之使用AliPay实现的详细操作指南》支付宝没有提供PythonSDK,但是强大的github就有提供python-alipay-sdk,封装里很多复杂操作,使用这个我们就... 目录一、引言二、准备工作2.1 支付宝开放平台入驻与应用创建2.2 密钥生成与配置2.3 安装ali

C#中lock关键字的使用小结

《C#中lock关键字的使用小结》在C#中,lock关键字用于确保当一个线程位于给定实例的代码块中时,其他线程无法访问同一实例的该代码块,下面就来介绍一下lock关键字的使用... 目录使用方式工作原理注意事项示例代码为什么不能lock值类型在C#中,lock关键字用于确保当一个线程位于给定实例的代码块中时