根据豆瓣对《流浪地球》的短评数据进行文本分析和挖掘

2023-12-04 01:04

本文主要是介绍根据豆瓣对《流浪地球》的短评数据进行文本分析和挖掘,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

1背景

2019年2月5日电影《流浪地球》正式在中国内地上映。该电影在举行首映的时候,口德好得出奇,所有去看片的业界大咖都发出了画样赞叹,文化学者能锦说:“中国科幻电影元年开启了。"导演徐峰则说,“里程碑式的电影,绝对是世界级别的”。可是公映之后,《流浪地球》的豆评分却从8.4一路跌到了7.9。影片页面排在第一位的,是一篇一星评《流浪地球,不及格》。文末有2.8万人点了“有用”,3.6万人点了“没用”。关于《流浪地球》的观影评价,已经变成了场逐渐失控的舆论混战,如"枪稿“作者灰狼所说,"关于它的舆论,已经演化成、政治正确、水军横行、自来水灭差评、道德绑架、战狼精神”。为了对《流浪地球》的观影评价有个全面的了解,对《流浪地球》的豆影评数据进行分析和挖掘

(1) 给制统计图分析评论数量及评分与时间的关系以及评论者的城市分布情况。
2) 通过词云图分析好评与差评的关键信息。
(3)构建文本分类模型识别每条评论的情感倾向,并对模型效果进行评估

2数据获取

读取数据

import pandas as pd
data=pd.read_csv()
data

查看数据形状

data.shape

读取前五行

data.head()

描述性统计

data.describe()

count:查看数据的数量、unique:有多少个不同的值相当于有多少种,top:出现最多的值,freq:出现的频次

data.describe(include='object')

3数据预处理

查看数据city列的第一个值

data['citys'][0]

借助正则表达式提取城市信息即需要去掉[‘’],保留北京

import re
re.findall("[^''\[\]]+",x)

发现当城市为空时会出现报错(超出范围),因此我们利用apply函数进行操作

data['citys']=data['citys'].apply[lambda x:re.findall("[^''\[\]]+",x)[0] if len(re.findall("[^''\[\]]+",x))!=0 else None]

对于scores也可以参照这个来处理
分词与去除停用词
分词是文本信息处理的基础环节,是将句子切分成一个个词的过程。准确的分词处理可以极大的提高计算机对文本信息的识别理解能力。相反,不准确的分词处理会产生大量的噪声,严重干扰计算机的识别理解能力,并对后续的处理工作产生较人的影响。营见停用词例如:的、了、都、你、我、么等等,这些词通常在文本中大量出现,会带来大量的噪音数据.因此需要将这些停用词进行过滤。

4分词与去除停用词

data['content']

把除了中文字符之外的字符过滤掉,把不是中文字符的用空代替

x=data['content'][0]
x
re.sub('[^\u4E00-\u9FD5]+','',x)
data['content']=data['content'].apply(lambda x:re.sub('[^\u4E00-\u9FD5]+','',x))

#分词

import jieba
data_cut=data['content'.apply(jieba.lcut)]
data_cut

#去除停用词

#载入和加入停用词
with open('../data/stoplist.txt','r',encoding='utf-8') as f:stop=f.read()
stop=stop.split()
stop=['','\n','这部']+stop
stop

判断是否在停用词内

'的' in stop
data_after=data_cut.apply(lambda x:[for i in x if i not in stop])
data_after

4划分数据集

评分小于30为差评,标记为0:反之则为好评,标记为1。将原始数据划分为训练集和测试集,划分比例为4;1.

data_after=pd.DataFrame(data_after)
data_after['score']=data['scores']
data_after.shape
data_after['score'].apply[lambda x:re.findall("[0-9]+",x)[0] if len(re.findall("[0-9]+",x))!=0 else None]
data_after

把列表转成字符串

data_after['content']=data_after['content'].apply(lambda x :' '.join(x))

新建一列label存储

data_after['label'].apply(lambda x:1 if x>=30 else 0)
data_new=data_after[['content','label']]

划分数据集

from sklearn.model_selection import train_test_split
src_training,src_testing=train_test_split(data_new,test_size=0.2,stratify=data_after[label],random_state=123)
src_training
connents_train,connents_test=src_training['content']
.values,src——testing['content'].values
y_train,y_test=src_training['label'],src_testing['label']
src_training['content'].values

5文本的向量化

for i in range(len(comments_train)):if len(comments_train[i])==0:print(i)
ind=[i for i in range(len(comments_train)) if i not in [89,205]]
comments_train=comments_train[ind]
y_train=y_train.values[ind]
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformercount_vectorizer=CountVectorizer()
tfidf_trainformer=TfidfTransformer()word_count_train=count_vectorizer.fit_transform(comments_train)
tfodf_train=tfidf_transformer.transform(word_count_test)print(tfidf_train.shape)
print(tfidf_test.shape)

6模型构建与评估

from sklearn.neighbors import KNeighborsClassifiermodel=KNeighborsClassifier(n_neighbors=8,weights='distance')#模型构建
model.fit(tfidf_train,y_train)#模型训练
model

模型评估

pre=model.predict(tfidf_test)
pre#计算正确率
from sklearn.metrics import accuracy_score
accuracy_score(y_test,pre)
y_test

有一说一这个不太行
这个看起来不错
加这个
完美

这篇关于根据豆瓣对《流浪地球》的短评数据进行文本分析和挖掘的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/451535

相关文章

慢sql提前分析预警和动态sql替换-Mybatis-SQL

《慢sql提前分析预警和动态sql替换-Mybatis-SQL》为防止慢SQL问题而开发的MyBatis组件,该组件能够在开发、测试阶段自动分析SQL语句,并在出现慢SQL问题时通过Ducc配置实现动... 目录背景解决思路开源方案调研设计方案详细设计使用方法1、引入依赖jar包2、配置组件XML3、核心配

Java NoClassDefFoundError运行时错误分析解决

《JavaNoClassDefFoundError运行时错误分析解决》在Java开发中,NoClassDefFoundError是一种常见的运行时错误,它通常表明Java虚拟机在尝试加载一个类时未能... 目录前言一、问题分析二、报错原因三、解决思路检查类路径配置检查依赖库检查类文件调试类加载器问题四、常见

Java注解之超越Javadoc的元数据利器详解

《Java注解之超越Javadoc的元数据利器详解》本文将深入探讨Java注解的定义、类型、内置注解、自定义注解、保留策略、实际应用场景及最佳实践,无论是初学者还是资深开发者,都能通过本文了解如何利用... 目录什么是注解?注解的类型内置注编程解自定义注解注解的保留策略实际用例最佳实践总结在 Java 编程

一文教你Python如何快速精准抓取网页数据

《一文教你Python如何快速精准抓取网页数据》这篇文章主要为大家详细介绍了如何利用Python实现快速精准抓取网页数据,文中的示例代码简洁易懂,具有一定的借鉴价值,有需要的小伙伴可以了解下... 目录1. 准备工作2. 基础爬虫实现3. 高级功能扩展3.1 抓取文章详情3.2 保存数据到文件4. 完整示例

使用Java将各种数据写入Excel表格的操作示例

《使用Java将各种数据写入Excel表格的操作示例》在数据处理与管理领域,Excel凭借其强大的功能和广泛的应用,成为了数据存储与展示的重要工具,在Java开发过程中,常常需要将不同类型的数据,本文... 目录前言安装免费Java库1. 写入文本、或数值到 Excel单元格2. 写入数组到 Excel表格

Python中的Walrus运算符分析示例详解

《Python中的Walrus运算符分析示例详解》Python中的Walrus运算符(:=)是Python3.8引入的一个新特性,允许在表达式中同时赋值和返回值,它的核心作用是减少重复计算,提升代码简... 目录1. 在循环中避免重复计算2. 在条件判断中同时赋值变量3. 在列表推导式或字典推导式中简化逻辑

python处理带有时区的日期和时间数据

《python处理带有时区的日期和时间数据》这篇文章主要为大家详细介绍了如何在Python中使用pytz库处理时区信息,包括获取当前UTC时间,转换为特定时区等,有需要的小伙伴可以参考一下... 目录时区基本信息python datetime使用timezonepandas处理时区数据知识延展时区基本信息

Qt实现网络数据解析的方法总结

《Qt实现网络数据解析的方法总结》在Qt中解析网络数据通常涉及接收原始字节流,并将其转换为有意义的应用层数据,这篇文章为大家介绍了详细步骤和示例,感兴趣的小伙伴可以了解下... 目录1. 网络数据接收2. 缓冲区管理(处理粘包/拆包)3. 常见数据格式解析3.1 jsON解析3.2 XML解析3.3 自定义

SpringMVC 通过ajax 前后端数据交互的实现方法

《SpringMVC通过ajax前后端数据交互的实现方法》:本文主要介绍SpringMVC通过ajax前后端数据交互的实现方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价... 在前端的开发过程中,经常在html页面通过AJAX进行前后端数据的交互,SpringMVC的controll

利用python实现对excel文件进行加密

《利用python实现对excel文件进行加密》由于文件内容的私密性,需要对Excel文件进行加密,保护文件以免给第三方看到,本文将以Python语言为例,和大家讲讲如何对Excel文件进行加密,感兴... 目录前言方法一:使用pywin32库(仅限Windows)方法二:使用msoffcrypto-too