统计店铺按月份的销售额和累计到该月的总销售额

2023-12-26 03:04

本文主要是介绍统计店铺按月份的销售额和累计到该月的总销售额,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

统计店铺按月份的销售额和累计到该月的总销售额(SQL, DSL,RDD)
分组topN的实现(row_number(), rank(), dense_rank()方法

(1)需求1:统计有过连续3天以上销售的店铺有哪些,并且计算出连续三天以上的销售额

第一步:将每天的金额求和(同一天可能会有多个订单)

SELECTsid,dt,SUM(money) day_money
FROMv_orders
GROUP BY sid,dt

第二步:给每个商家中每日的订单按时间排序并打上编号

SELECT sid,dt,day_money,ROW_NUMBER() OVER(PARTITION BY sid ORDER BY dt) rn
FROM
(SELECTsid,dt,SUM(money) day_moneyFROMv_ordersGROUP BY sid,dt
) t1

第三步:获取date与rn的差值的字段

SELECTsid ,dt,day_money,date_sub(dt,rn) diff
FROM
(SELECT sid,dt,day_money,ROW_NUMBER() OVER(PARTITION BY sid ORDER BY dt) rnFROM(SELECTsid,dt,SUM(money) day_moneyFROMv_ordersGROUP BY sid,dt) t1
) t2
SELECTsid,MIN(dt),MAX(dt),SUM(day_money) cmoney,COUNT(*) cc
FROM
(SELECTsid ,dt,day_money,date_sub(dt,rn) diffFROM(SELECT sid,dt,day_money,ROW_NUMBER() OVER(PARTITION BY sid ORDER BY dt) rnFROM(SELECTsid,dt,SUM(money) day_moneyFROMv_ordersGROUP BY sid,dt) t1) t2
)
GROUP BY sid,diff
HAVING cc >=3

(2)需求2:统计店铺按月份的销售额和累计到该月的总销售额

SQL风格(只写sq语句,省略代码部分)

ELECT sid,month,month_sales,SUM(month_sales) OVER(PARTITION BY sid ORDER BY month) total_sales  // 默认是其实位置到当前位置的累加--PARTITION BY sid ORDER BY mth ASC ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW  完整的写法
FROM
(SELECTsid,DATE_FORMAT(dt,'yyyy-MM') month,--substr(dt,1,7) month,  用此函数来取月份也行SUM(money) month_salesFROMv_ordersGROUP BY sid, month
)
  1. 分组topN的实现

row_number(), rank(), dense_rank()方法的区别

row_number() over() 打行号,行号从1开始
rank() over() 排序,有并列,如果有两个第1,就没有第2了,然后直接第3,跳号
dense_rank() over() 排序,有并列,不跳号

SQL 
注意点:此处的文件格式是text的,所以需要用SparkContext的textFile方法来读取数据,然后处理此数据,得到需要的字段(subject,teacher),再利用toDF(“subject”, “teacher”)方法获取对应的DataFrame,从而创建相应的视图

object FavoriteTeacherSQL {def main(args: Array[String]): Unit = {val spark: SparkSession = SparkSession.builder().appName(this.getClass.getSimpleName).master("local[*]").getOrCreate()import spark.implicits._val lines: RDD[String] = spark.sparkContext.textFile("E:\\javafile\\spark\\teacher100.txt")// 处理数据,获取DataFrame,用于创建视图val df: DataFrame = lines.map(line => {val fields = line.split("/")val subject = fields(2).split("\\.")(0)val teacher = fields(3)(subject, teacher)}).toDF("subject", "teacher")// 创建视图df.createTempView("v_teacher")var topN: Int = 2// SQL实现分组topNspark.sql(s"""|SELECT|  subject,teacher,counts|  rk|FROM|(|  SELECT|    subject,teacher,counts,|    RANK() OVER(PARTITION BY subject ORDER BY counts DESC) rk|  FROM|  (|    SELECT|      subject,teacher,|      count(*) counts|    FROM|      v_teacher|    GROUP BY subject, teacher|  ) t1|) t2 WHERE rk <= $topN|""".stripMargin).show()}
}

这篇关于统计店铺按月份的销售额和累计到该月的总销售额的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/537888

相关文章

C++统计函数执行时间的最佳实践

《C++统计函数执行时间的最佳实践》在软件开发过程中,性能分析是优化程序的重要环节,了解函数的执行时间分布对于识别性能瓶颈至关重要,本文将分享一个C++函数执行时间统计工具,希望对大家有所帮助... 目录前言工具特性核心设计1. 数据结构设计2. 单例模式管理器3. RAII自动计时使用方法基本用法高级用法

IDEA与MyEclipse代码量统计方式

《IDEA与MyEclipse代码量统计方式》文章介绍在项目中不安装第三方工具统计代码行数的方法,分别说明MyEclipse通过正则搜索(排除空行和注释)及IDEA使用Statistic插件或调整搜索... 目录项目场景MyEclipse代码量统计IDEA代码量统计总结项目场景在项目中,有时候我们需要统计

SQL Server跟踪自动统计信息更新实战指南

《SQLServer跟踪自动统计信息更新实战指南》本文详解SQLServer自动统计信息更新的跟踪方法,推荐使用扩展事件实时捕获更新操作及详细信息,同时结合系统视图快速检查统计信息状态,重点强调修... 目录SQL Server 如何跟踪自动统计信息更新:深入解析与实战指南 核心跟踪方法1️⃣ 利用系统目录

在Linux终端中统计非二进制文件行数的实现方法

《在Linux终端中统计非二进制文件行数的实现方法》在Linux系统中,有时需要统计非二进制文件(如CSV、TXT文件)的行数,而不希望手动打开文件进行查看,例如,在处理大型日志文件、数据文件时,了解... 目录在linux终端中统计非二进制文件的行数技术背景实现步骤1. 使用wc命令2. 使用grep命令

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

Pandas中统计汇总可视化函数plot()的使用

《Pandas中统计汇总可视化函数plot()的使用》Pandas提供了许多强大的数据处理和分析功能,其中plot()函数就是其可视化功能的一个重要组成部分,本文主要介绍了Pandas中统计汇总可视化... 目录一、plot()函数简介二、plot()函数的基本用法三、plot()函数的参数详解四、使用pl

Pandas统计每行数据中的空值的方法示例

《Pandas统计每行数据中的空值的方法示例》处理缺失数据(NaN值)是一个非常常见的问题,本文主要介绍了Pandas统计每行数据中的空值的方法示例,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是空值?为什么要统计空值?准备工作创建示例数据统计每行空值数量进一步分析www.chinasem.cn处

Mysql如何将数据按照年月分组的统计

《Mysql如何将数据按照年月分组的统计》:本文主要介绍Mysql如何将数据按照年月分组的统计方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql将数据按照年月分组的统计要的效果方案总结Mysql将数据按照年月分组的统计要的效果方案① 使用 DA

一文详解SQL Server如何跟踪自动统计信息更新

《一文详解SQLServer如何跟踪自动统计信息更新》SQLServer数据库中,我们都清楚统计信息对于优化器来说非常重要,所以本文就来和大家简单聊一聊SQLServer如何跟踪自动统计信息更新吧... SQL Server数据库中,我们都清楚统计信息对于优化器来说非常重要。一般情况下,我们会开启"自动更新

opencv实现像素统计的示例代码

《opencv实现像素统计的示例代码》本文介绍了OpenCV中统计图像像素信息的常用方法和函数,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1. 统计像素值的基本信息2. 统计像素值的直方图3. 统计像素值的总和4. 统计非零像素的数量