Spark RDD分析各种类型的最喜爱电影TopN技巧

2024-02-07 15:59

本文主要是介绍Spark RDD分析各种类型的最喜爱电影TopN技巧,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

楔子

学习《spark大数据商业实战》第12章节
通过RDD分析大数据电影点评系统各种类型的电影最喜爱电影TopN。本次分析最受男性(女性)喜爱的电影Top10

里面复用了Spark RDD实现电影流行度分析

思路

  1. 因为要使用电影数据RDD,所以复用了Spark RDD实现电影流行度分析
  2. 根据性别过滤数据
  3. 要进行join 需要key-values
  4. join之后的数据(2828,((3793,3),M)) -->(用户(电影id,评分)性别) 转换为Spark RDD实现电影流行度分析需要的格式 (电影,评分,人数) --eg (MovieID,(Rating,1))

demo lambda方式

/*** 2:最受男性欢迎的电影 和最受女性欢迎的电影(RDD方式)使用lambda简化* * @param userDF* @param ratDF*/
public static void popularByRDDSimpleness(SparkSession sparkSession, JavaRDD<String> userRdd, JavaRDD<String> ratRdd) {System.out.println("男性喜爱的10个电影 ByRDD");System.out.println(new DateTime().toString("yyyy-MMM-dd HH:mm:ss:SSS"));// UserID::GenderJavaPairRDD<String, String> user_gender = userRdd.mapToPair(t -> new Tuple2<String, String>(t.split("::")[0], t.split("::")[1]));user_gender.cache();// 评分变为 userid:(电影id,评分)JavaPairRDD<String, Tuple2<String, Long>> user_movie_rat = ratRdd.mapToPair(t -> new Tuple2<String, Tuple2<String, Long>>(t.split("::")[0], new Tuple2<String, Long>(t.split("::")[1], Long.valueOf(t.split("::")[2]))));user_movie_rat.cache();JavaPairRDD<String, Tuple2<Tuple2<String, Long>, String>> user_pairRdd = user_movie_rat.join(user_gender);// user_pairRdd.take(10).forEach(t -> System.out.println(t));// (2828,((3793,3),M))// (2828,((2997,5),M))// 从里面过滤男性JavaPairRDD<String, Tuple2<Tuple2<String, Long>, String>> filter = user_pairRdd.filter(t -> t._2._2.equals("M"));// 将上述过滤之后的结果 (userid,(电影id,评分),性别) 从新构造成 (MovieID,(Rating,1))JavaPairRDD<String, Tuple2<Long, Long>> mapToPair = filter.mapToPair(t -> new Tuple2<String, Tuple2<Long, Long>>(t._2._1._1, new Tuple2<Long, Long>(t._2._1._2, 1L)));/*** 1 所有电影中平均得分最高的Top10电影*/// step 1 把数据变为key-value ,eg (MovieID,(Rating,1))mapToPair.cache();// step 2 通过reduceByKey 汇总,key是MovieID,但是values是(评分总和,点评人数合计)JavaPairRDD<String, Tuple2<Long, Long>> reduceByKey = mapToPair.reduceByKey((a, b) -> new Tuple2<Long, Long>(a._1 + b._1, a._2 + b._2));// step 3 sortByKey(false) 倒序排列JavaPairRDD<Double, String> result = reduceByKey.mapToPair(v1 -> new Tuple2<Double, String>((v1._2._1 * 0.1 / v1._2._2), v1._1));result.sortByKey(false).take(10).forEach(t -> System.out.println(t));System.out.println(new DateTime().toString("yyyy-MMM-dd HH:mm:ss:SSS"));
}

demo SparkSQL方式

/*** 2:最受男性欢迎的电影 和最受女性欢迎的电影(Sql方式)* * @param userDF* @param ratDF*/
public static void popularBySql(SparkSession sparkSession, Dataset<Row> userDF, Dataset<Row> ratDF) {System.out.println("男性喜爱的10个电影 BySQL");System.out.println(new DateTime().toString("yyyy-MMM-dd HH:mm:ss:SSS"));// 2019-一月-03 20:10:05:305userDF.createOrReplaceTempView("t_user");ratDF.createOrReplaceTempView("t_rat");// 选择评论中是男性的评分Dataset<Row> sql = sparkSession.sql("select avg(rat) rat_avg ,MovieID from (" //+ "select r.* from t_rat r , t_user u where u.Gender='M' AND U.UserID = r.UserID )" + //"group by MovieID order by rat_avg desc limit 10");sql.show();System.out.println(new DateTime().toString("yyyy-MMM-dd HH:mm:ss:SSS"));
}

spark RDD方式

GitHub位置 方法是popularByRDD 代码太长 此处不罗列

对比RDD和SparkSQL

对比不是那么充分,仅作为一个参考。由下图发现 RDD方式 所需要的时间会短一点
在这里插入图片描述

这篇关于Spark RDD分析各种类型的最喜爱电影TopN技巧的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/688222

相关文章

qt5cored.dll报错怎么解决? 电脑qt5cored.dll文件丢失修复技巧

《qt5cored.dll报错怎么解决?电脑qt5cored.dll文件丢失修复技巧》在进行软件安装或运行程序时,有时会遇到由于找不到qt5core.dll,无法继续执行代码,这个问题可能是由于该文... 遇到qt5cored.dll文件错误时,可能会导致基于 Qt 开发的应用程序无法正常运行或启动。这种错

mtu设置多少网速最快? 路由器MTU设置最佳网速的技巧

《mtu设置多少网速最快?路由器MTU设置最佳网速的技巧》mtu设置多少网速最快?想要通过设置路由器mtu获得最佳网速,该怎么设置呢?下面我们就来看看路由器MTU设置最佳网速的技巧... 答:1500 MTU值指的是在网络传输中数据包的最大值,合理的设置MTU 值可以让网络更快!mtu设置可以优化不同的网

MyBatis Plus 中 update_time 字段自动填充失效的原因分析及解决方案(最新整理)

《MyBatisPlus中update_time字段自动填充失效的原因分析及解决方案(最新整理)》在使用MyBatisPlus时,通常我们会在数据库表中设置create_time和update... 目录前言一、问题现象二、原因分析三、总结:常见原因与解决方法对照表四、推荐写法前言在使用 MyBATis

Python主动抛出异常的各种用法和场景分析

《Python主动抛出异常的各种用法和场景分析》在Python中,我们不仅可以捕获和处理异常,还可以主动抛出异常,也就是以类的方式自定义错误的类型和提示信息,这在编程中非常有用,下面我将详细解释主动抛... 目录一、为什么要主动抛出异常?二、基本语法:raise关键字基本示例三、raise的多种用法1. 抛

MySQL JSON 查询中的对象与数组技巧及查询示例

《MySQLJSON查询中的对象与数组技巧及查询示例》MySQL中JSON对象和JSON数组查询的详细介绍及带有WHERE条件的查询示例,本文给大家介绍的非常详细,mysqljson查询示例相关知... 目录jsON 对象查询1. JSON_CONTAINS2. JSON_EXTRACT3. JSON_TA

github打不开的问题分析及解决

《github打不开的问题分析及解决》:本文主要介绍github打不开的问题分析及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、找到github.com域名解析的ip地址二、找到github.global.ssl.fastly.net网址解析的ip地址三

Mysql的主从同步/复制的原理分析

《Mysql的主从同步/复制的原理分析》:本文主要介绍Mysql的主从同步/复制的原理分析,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录为什么要主从同步?mysql主从同步架构有哪些?Mysql主从复制的原理/整体流程级联复制架构为什么好?Mysql主从复制注意

Spring @RequestMapping 注解及使用技巧详解

《Spring@RequestMapping注解及使用技巧详解》@RequestMapping是SpringMVC中定义请求映射规则的核心注解,用于将HTTP请求映射到Controller处理方法... 目录一、核心作用二、关键参数说明三、快捷组合注解四、动态路径参数(@PathVariable)五、匹配请

java -jar命令运行 jar包时运行外部依赖jar包的场景分析

《java-jar命令运行jar包时运行外部依赖jar包的场景分析》:本文主要介绍java-jar命令运行jar包时运行外部依赖jar包的场景分析,本文给大家介绍的非常详细,对大家的学习或工作... 目录Java -jar命令运行 jar包时如何运行外部依赖jar包场景:解决:方法一、启动参数添加: -Xb

如何确定哪些软件是Mac系统自带的? Mac系统内置应用查看技巧

《如何确定哪些软件是Mac系统自带的?Mac系统内置应用查看技巧》如何确定哪些软件是Mac系统自带的?mac系统中有很多自带的应用,想要看看哪些是系统自带,该怎么查看呢?下面我们就来看看Mac系统内... 在MAC电脑上,可以使用以下方法来确定哪些软件是系统自带的:1.应用程序文件夹打开应用程序文件夹