Spark RDD分析各种类型的最喜爱电影TopN技巧

2024-02-07 15:59

本文主要是介绍Spark RDD分析各种类型的最喜爱电影TopN技巧,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

楔子

学习《spark大数据商业实战》第12章节
通过RDD分析大数据电影点评系统各种类型的电影最喜爱电影TopN。本次分析最受男性(女性)喜爱的电影Top10

里面复用了Spark RDD实现电影流行度分析

思路

  1. 因为要使用电影数据RDD,所以复用了Spark RDD实现电影流行度分析
  2. 根据性别过滤数据
  3. 要进行join 需要key-values
  4. join之后的数据(2828,((3793,3),M)) -->(用户(电影id,评分)性别) 转换为Spark RDD实现电影流行度分析需要的格式 (电影,评分,人数) --eg (MovieID,(Rating,1))

demo lambda方式

/*** 2:最受男性欢迎的电影 和最受女性欢迎的电影(RDD方式)使用lambda简化* * @param userDF* @param ratDF*/
public static void popularByRDDSimpleness(SparkSession sparkSession, JavaRDD<String> userRdd, JavaRDD<String> ratRdd) {System.out.println("男性喜爱的10个电影 ByRDD");System.out.println(new DateTime().toString("yyyy-MMM-dd HH:mm:ss:SSS"));// UserID::GenderJavaPairRDD<String, String> user_gender = userRdd.mapToPair(t -> new Tuple2<String, String>(t.split("::")[0], t.split("::")[1]));user_gender.cache();// 评分变为 userid:(电影id,评分)JavaPairRDD<String, Tuple2<String, Long>> user_movie_rat = ratRdd.mapToPair(t -> new Tuple2<String, Tuple2<String, Long>>(t.split("::")[0], new Tuple2<String, Long>(t.split("::")[1], Long.valueOf(t.split("::")[2]))));user_movie_rat.cache();JavaPairRDD<String, Tuple2<Tuple2<String, Long>, String>> user_pairRdd = user_movie_rat.join(user_gender);// user_pairRdd.take(10).forEach(t -> System.out.println(t));// (2828,((3793,3),M))// (2828,((2997,5),M))// 从里面过滤男性JavaPairRDD<String, Tuple2<Tuple2<String, Long>, String>> filter = user_pairRdd.filter(t -> t._2._2.equals("M"));// 将上述过滤之后的结果 (userid,(电影id,评分),性别) 从新构造成 (MovieID,(Rating,1))JavaPairRDD<String, Tuple2<Long, Long>> mapToPair = filter.mapToPair(t -> new Tuple2<String, Tuple2<Long, Long>>(t._2._1._1, new Tuple2<Long, Long>(t._2._1._2, 1L)));/*** 1 所有电影中平均得分最高的Top10电影*/// step 1 把数据变为key-value ,eg (MovieID,(Rating,1))mapToPair.cache();// step 2 通过reduceByKey 汇总,key是MovieID,但是values是(评分总和,点评人数合计)JavaPairRDD<String, Tuple2<Long, Long>> reduceByKey = mapToPair.reduceByKey((a, b) -> new Tuple2<Long, Long>(a._1 + b._1, a._2 + b._2));// step 3 sortByKey(false) 倒序排列JavaPairRDD<Double, String> result = reduceByKey.mapToPair(v1 -> new Tuple2<Double, String>((v1._2._1 * 0.1 / v1._2._2), v1._1));result.sortByKey(false).take(10).forEach(t -> System.out.println(t));System.out.println(new DateTime().toString("yyyy-MMM-dd HH:mm:ss:SSS"));
}

demo SparkSQL方式

/*** 2:最受男性欢迎的电影 和最受女性欢迎的电影(Sql方式)* * @param userDF* @param ratDF*/
public static void popularBySql(SparkSession sparkSession, Dataset<Row> userDF, Dataset<Row> ratDF) {System.out.println("男性喜爱的10个电影 BySQL");System.out.println(new DateTime().toString("yyyy-MMM-dd HH:mm:ss:SSS"));// 2019-一月-03 20:10:05:305userDF.createOrReplaceTempView("t_user");ratDF.createOrReplaceTempView("t_rat");// 选择评论中是男性的评分Dataset<Row> sql = sparkSession.sql("select avg(rat) rat_avg ,MovieID from (" //+ "select r.* from t_rat r , t_user u where u.Gender='M' AND U.UserID = r.UserID )" + //"group by MovieID order by rat_avg desc limit 10");sql.show();System.out.println(new DateTime().toString("yyyy-MMM-dd HH:mm:ss:SSS"));
}

spark RDD方式

GitHub位置 方法是popularByRDD 代码太长 此处不罗列

对比RDD和SparkSQL

对比不是那么充分,仅作为一个参考。由下图发现 RDD方式 所需要的时间会短一点
在这里插入图片描述

这篇关于Spark RDD分析各种类型的最喜爱电影TopN技巧的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/688222

相关文章

Java实现复杂查询优化的7个技巧小结

《Java实现复杂查询优化的7个技巧小结》在Java项目中,复杂查询是开发者面临的“硬骨头”,本文将通过7个实战技巧,结合代码示例和性能对比,手把手教你如何让复杂查询变得优雅,大家可以根据需求进行选择... 目录一、复杂查询的痛点:为何你的代码“又臭又长”1.1冗余变量与中间状态1.2重复查询与性能陷阱1.

Python内存优化的实战技巧分享

《Python内存优化的实战技巧分享》Python作为一门解释型语言,虽然在开发效率上有着显著优势,但在执行效率方面往往被诟病,然而,通过合理的内存优化策略,我们可以让Python程序的运行速度提升3... 目录前言python内存管理机制引用计数机制垃圾回收机制内存泄漏的常见原因1. 循环引用2. 全局变

MySQL中查询和展示LONGBLOB类型数据的技巧总结

《MySQL中查询和展示LONGBLOB类型数据的技巧总结》在MySQL中LONGBLOB是一种二进制大对象(BLOB)数据类型,用于存储大量的二进制数据,:本文主要介绍MySQL中查询和展示LO... 目录前言1. 查询 LONGBLOB 数据的大小2. 查询并展示 LONGBLOB 数据2.1 转换为十

Python进阶之列表推导式的10个核心技巧

《Python进阶之列表推导式的10个核心技巧》在Python编程中,列表推导式(ListComprehension)是提升代码效率的瑞士军刀,本文将通过真实场景案例,揭示列表推导式的进阶用法,希望对... 目录一、基础语法重构:理解推导式的底层逻辑二、嵌套循环:破解多维数据处理难题三、条件表达式:实现分支

Python中的filter() 函数的工作原理及应用技巧

《Python中的filter()函数的工作原理及应用技巧》Python的filter()函数用于筛选序列元素,返回迭代器,适合函数式编程,相比列表推导式,内存更优,尤其适用于大数据集,结合lamb... 目录前言一、基本概念基本语法二、使用方式1. 使用 lambda 函数2. 使用普通函数3. 使用 N

Android 缓存日志Logcat导出与分析最佳实践

《Android缓存日志Logcat导出与分析最佳实践》本文全面介绍AndroidLogcat缓存日志的导出与分析方法,涵盖按进程、缓冲区类型及日志级别过滤,自动化工具使用,常见问题解决方案和最佳实... 目录android 缓存日志(Logcat)导出与分析全攻略为什么要导出缓存日志?按需过滤导出1. 按

Go语言网络故障诊断与调试技巧

《Go语言网络故障诊断与调试技巧》在分布式系统和微服务架构的浪潮中,网络编程成为系统性能和可靠性的核心支柱,从高并发的API服务到实时通信应用,网络的稳定性直接影响用户体验,本文面向熟悉Go基本语法和... 目录1. 引言2. Go 语言网络编程的优势与特色2.1 简洁高效的标准库2.2 强大的并发模型2.

Python 函数详解:从基础语法到高级使用技巧

《Python函数详解:从基础语法到高级使用技巧》本文基于实例代码,全面讲解Python函数的定义、参数传递、变量作用域及类型标注等知识点,帮助初学者快速掌握函数的使用技巧,感兴趣的朋友跟随小编一起... 目录一、函数的基本概念与作用二、函数的定义与调用1. 无参函数2. 带参函数3. 带返回值的函数4.

Linux中的HTTPS协议原理分析

《Linux中的HTTPS协议原理分析》文章解释了HTTPS的必要性:HTTP明文传输易被篡改和劫持,HTTPS通过非对称加密协商对称密钥、CA证书认证和混合加密机制,有效防范中间人攻击,保障通信安全... 目录一、什么是加密和解密?二、为什么需要加密?三、常见的加密方式3.1 对称加密3.2非对称加密四、

MySQL中读写分离方案对比分析与选型建议

《MySQL中读写分离方案对比分析与选型建议》MySQL读写分离是提升数据库可用性和性能的常见手段,本文将围绕现实生产环境中常见的几种读写分离模式进行系统对比,希望对大家有所帮助... 目录一、问题背景介绍二、多种解决方案对比2.1 原生mysql主从复制2.2 Proxy层中间件:ProxySQL2.3