TapTap玩家评论——从爬虫到情感分析：APP爬虫、数据清洗、Pyecharts可视化、Word2Vec建模、LSTM建模

本文主要是介绍TapTap玩家评论——从爬虫到情感分析：APP爬虫、数据清洗、Pyecharts可视化、Word2Vec建模、LSTM建模，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

TAPTAP评论的文本挖掘

背景

玩家评论可以为游戏的版本迭代提供重要参考，假如可以快速定位玩家的负面评价，则能够节约收集意见的时间成本。本项目通过文本挖掘方法，展示从数据采集到情感模型评价的全过程。
本项目的完整代码：Github地址
本项目可视化的动态展示：和鲸地址

一、爬虫

TAPTAP评论数据通过JSON返回，使用python中的Requests库非常容易就可以提取里面的内容。下面这幅图是Fiddler抓包时看到的数据：

在这里插入图片描述

断点续传：

建立断点txt文件，在因网络等原因中断时，重启程序，可以在断点处续爬，在中断时，已缓存的数据将保存至csv

def resume(self):"""爬取出错时，将出错url的‘from’参数值保存至txt中，中断爬虫。再次运行爬虫程序后，从此页继续爬取:return: 本次续连url的‘from’参数值"""start_from = 0if os.path.exists(STOP_POINT_FILE):with open(STOP_POINT_FILE, 'r') as f:start_from = int(f.readline())return start_from

爬虫休眠：

文明爬虫，虽未发现反爬，但爬完每个页面后暂停0-2秒，减轻服务器负担

import random
import time
pause = random.uniform(0, 2)
time.sleep(pause)

编码转换：

python中比较容易出现编码问题，在中文环境下更甚，评论里可能会有无法打印的字符，虽然不影响数据下载，但容易影响后续处理。先把数据进行gbk编码，丢弃无法识别的字符，再进行解码，最后将数据保存为utf-8格式，上面的问题就不存在啦~

 review['author'] = r.get('author').get('name').encode('gbk', 'ignore').decode('gbk')

其他信息：
每页10条数据，每个游戏的评论最多可爬990页，超过990页，TAPTAP拒绝访问。爬至页面上限需要约30分钟，可以去喝喝茶再回来（因为爬虫不是重点，没有进行速度方面的优化）。程序将采集到的数据存放至你指定路径的csv中。完整代码

二、数据清洗

这一步主要为数据可视化服务，使用pandas库可以很方便地进行数据清洗。

时间戳转换日期：

为了让pyecharts识别出时间标签，需要进行日期转换

import time
data['updated_time'] = data['updated_time']

这篇关于TapTap玩家评论——从爬虫到情感分析：APP爬虫、数据清洗、Pyecharts可视化、Word2Vec建模、LSTM建模的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

TapTap玩家评论——从爬虫到情感分析：APP爬虫、数据清洗、Pyecharts可视化、Word2Vec建模、LSTM建模

TAPTAP评论的文本挖掘

背景

一、爬虫

断点续传：

爬虫休眠：

编码转换：

二、数据清洗

时间戳转换日期：

相关文章

Nginx分布式部署流程分析

Linux下利用select实现串口数据读取过程

Redis中的有序集合zset从使用到原理分析

Redis中的AOF原理及分析

Python爬虫HTTPS使用requests,httpx,aiohttp实战中的证书异步等问题

MyBatis Plus大数据量查询慢原因分析及解决

uni-app小程序项目中实现前端图片压缩实现方式(附详细代码)

分析 Java Stream 的 peek使用实践与副作用处理方案

MyBatis/MyBatis-Plus同事务循环调用存储过程获取主键重复问题分析及解决

C#使用iText获取PDF的trailer数据的代码示例