ITTC数据挖掘平台介绍(二) 微博数据挖掘和分析

2024-02-15 01:40

本文主要是介绍ITTC数据挖掘平台介绍(二) 微博数据挖掘和分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

上节我们介绍了系统的基本框架和特性,本文我们将通过该平台进行微博数据挖掘,并给出一些有意思的结果。

一.微博和微博数据

1.分析微博的意义

       新浪的数据以每天海量的速度增长,它包含了四亿网民的对国家大事的看法,对生活的诉求,对环境和人的观点,以及人际间关系,是了解和分析复杂网络和社会行为的无比重要的资源。因此开发微博分析软件,是有非常重要的意义的。

2.加载微博分析独立组件    

系统主要针对新浪微博,我们为微博开发了独立组件包,将其动态链接库dll文件拷贝到软件的插件目录下,系统就会自动加载。若不希望有该功能,只需简单删除链接文件库即可。

image

系统会将微博相关的算法,资源,数据类型加载到系统插件库中。

  3. 微博数据

组件包内置了用户,微博,评论,热点事件的数据类型的支持,同时提供了Entity Framework的数据库访问能力,使用方便。同时,软件内置了新浪微博API接口,可以方便的从微博中采集微博数据,如下图所示:

image

获取数据后,可以通过下面的可视化组件查看这些数据。

image

您可以对这些数据做筛选,排序等操作,并送入数据管理器,为完成数据分析做准备。

二. 微博分析功能

1. 微博转发和信息溯源

该功能可以让我们了解和分析任一条微博的被转发和评论情况,您可以以简单有效的方式查看微博的事件流传送过程。

使用方法很简单,在数据管理器中选定任意一条微博,在系统菜单上点选“数据”中的”image“,系统即可自动进行分析,结果如下:

image

2.话题分类和观点分析

该功能可以方便的对某用户的话题进行分类,并通过软件内置的”情感语义分析引擎“分析用户情感。并通过可视化组件实现绘图操作。

通过内置的微博采集器获取某名人的微博信息。

image

将”观点分析“和”图表统计输出“两个算法模块拖入算法处理器,并配置要处理的数据源。如下图所示:

image

最终可输出结果,分别以表格和图表的形式,给出分类结果。

image

3. 微博传播图谱

微博在微博网络中被转发的结构,最终可表现为不同的传播模式,36KR的一篇文章介绍了这个特性,链接在这里。

我们也完成了类似的功能,并能实现动画布点,按照时间顺序,演示信息的转发逻辑。使用方法也很简单,类似本节第一条,在菜单中选取“微博传播网络”即可。

以下是潘总的微博”本月结束了,跑步100公里目标都没有完成,仅97.6公里” 的转发关系图,明显的,二次转发较少,以一次转发为主。

image

   三.用户关系行为分析

1. 用户关系分析

软件可以对某一批用户的关系进行分析,从而获得用户社团聚类,和人际关系网络。在用户关系分析中,我们采用了特别的相关度计算方法,结合用户的共同喜好,共同好友,地理位置等行为实现计算。当然,由于不同类型的用户可能具有完全不同的行为,软件会自动适配算法参数和权重,并送入聚类模块。

将“微博用户关系计算”,聚类图形显示和K-Means数据聚类拖入算法处理器,如下图所示:

image

这些算法通过自动组装,可实现如下的计算流程:

image

用户关系计算的结果送入K-means聚类中,最终将结果送入聚类图形显示中执行绘图。整个过程全部自动化。

image

最终,可获得好友关系圈,该人的好友主要分为两类,其本科同学和研究生同学。分类结果良好。若希望能更细分,可以将聚类参数进行调节,从而获得类似下图的结果:

image(没有完全显示)

2.用户数据统计

图表统计输出拖入到算法处理器, 该模块会自动根据数据类型加载不同的统计方案,如下图所示,我们采用地理位置的数量统计方法来统计用户的好友地理分布,如图所示:

image

image

3.用户地理位置显示

软件可以根据微博的位置标签,显示某用户在一段时间内的位置信息,并显示在系统内置的地图上。如下图所示:

image

同时,还可以实现”路径漫游”功能,动态播放运动轨迹。

 

四.总结和开发计划

  以上是软件平台目前关于微博的功能介绍。当然,这些结果还不完善。我们下一步的工作是:

1. 对微博数据进行深入语义分析和更加智能的情感分析

2. 微博的舆情分析,以及事件追踪图

3. 对微博特殊用户,如僵尸粉丝予以识别

4. 进一步了解和分析微博信息传播途径

 

有任何问题,欢迎进一步交流。

这篇关于ITTC数据挖掘平台介绍(二) 微博数据挖掘和分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:https://blog.csdn.net/weixin_34110749/article/details/85528030
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/710132

相关文章

MybatisPlus service接口功能介绍

《MybatisPlusservice接口功能介绍》:本文主要介绍MybatisPlusservice接口功能介绍,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友... 目录Service接口基本用法进阶用法总结:Lambda方法Service接口基本用法MyBATisP

MyBatis Plus 中 update_time 字段自动填充失效的原因分析及解决方案(最新整理)

《MyBatisPlus中update_time字段自动填充失效的原因分析及解决方案(最新整理)》在使用MyBatisPlus时,通常我们会在数据库表中设置create_time和update... 目录前言一、问题现象二、原因分析三、总结:常见原因与解决方法对照表四、推荐写法前言在使用 MyBATis

Python主动抛出异常的各种用法和场景分析

《Python主动抛出异常的各种用法和场景分析》在Python中,我们不仅可以捕获和处理异常,还可以主动抛出异常,也就是以类的方式自定义错误的类型和提示信息,这在编程中非常有用,下面我将详细解释主动抛... 目录一、为什么要主动抛出异常?二、基本语法:raise关键字基本示例三、raise的多种用法1. 抛

MySQL复杂SQL之多表联查/子查询详细介绍(最新整理)

《MySQL复杂SQL之多表联查/子查询详细介绍(最新整理)》掌握多表联查(INNERJOIN,LEFTJOIN,RIGHTJOIN,FULLJOIN)和子查询(标量、列、行、表子查询、相关/非相关、... 目录第一部分:多表联查 (JOIN Operations)1. 连接的类型 (JOIN Types)

github打不开的问题分析及解决

《github打不开的问题分析及解决》:本文主要介绍github打不开的问题分析及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、找到github.com域名解析的ip地址二、找到github.global.ssl.fastly.net网址解析的ip地址三

Mysql的主从同步/复制的原理分析

《Mysql的主从同步/复制的原理分析》:本文主要介绍Mysql的主从同步/复制的原理分析,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录为什么要主从同步?mysql主从同步架构有哪些?Mysql主从复制的原理/整体流程级联复制架构为什么好?Mysql主从复制注意

java -jar命令运行 jar包时运行外部依赖jar包的场景分析

《java-jar命令运行jar包时运行外部依赖jar包的场景分析》:本文主要介绍java-jar命令运行jar包时运行外部依赖jar包的场景分析,本文给大家介绍的非常详细,对大家的学习或工作... 目录Java -jar命令运行 jar包时如何运行外部依赖jar包场景:解决:方法一、启动参数添加: -Xb

java中BigDecimal里面的subtract函数介绍及实现方法

《java中BigDecimal里面的subtract函数介绍及实现方法》在Java中实现减法操作需要根据数据类型选择不同方法,主要分为数值型减法和字符串减法两种场景,本文给大家介绍java中BigD... 目录Java中BigDecimal里面的subtract函数的意思?一、数值型减法(高精度计算)1.

Pytorch介绍与安装过程

《Pytorch介绍与安装过程》PyTorch因其直观的设计、卓越的灵活性以及强大的动态计算图功能,迅速在学术界和工业界获得了广泛认可,成为当前深度学习研究和开发的主流工具之一,本文给大家介绍Pyto... 目录1、Pytorch介绍1.1、核心理念1.2、核心组件与功能1.3、适用场景与优势总结1.4、优

Apache 高级配置实战之从连接保持到日志分析的完整指南

《Apache高级配置实战之从连接保持到日志分析的完整指南》本文带你从连接保持优化开始,一路走到访问控制和日志管理,最后用AWStats来分析网站数据,对Apache配置日志分析相关知识感兴趣的朋友... 目录Apache 高级配置实战:从连接保持到日志分析的完整指南前言 一、Apache 连接保持 - 性