大数据SQL面试题每日一题系列:现有用户登录记录表,请查询出用户连续三天登录所有的数据记录

本文主要是介绍大数据SQL面试题每日一题系列:现有用户登录记录表,请查询出用户连续三天登录所有的数据记录,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

之后会不定期更新每日一题sql系列。

SQL面试题每日一题系列内容均来自于网络以及实际使用情况收集,如与各大厂面试题有雷同,纯属巧合。

1.题目

问题:以下为多个用户每日登录记录数据,已经按照用户登录日期进行了去重处理,求解出每个用户连续三天登录所有的数据记录

此题也和求解用户连续登录n天的次数题目求解方式重合。

2.基础数据准备

基于上一题SQL面试题每日一题-求解用户最长连续登录天数数据源做了一定修正,方便理解。

create table if not exists temp.user_login_log (`id` bigint comment '用户id',`login_date` string comment '登录日期'
) comment '用户每日登录流水'

数据预览

idlogin_date
12024-04-25
12024-04-26
12024-04-27
12024-04-28
12024-04-30
12024-05-01
12024-05-02
12024-05-04
12024-05-05
22024-04-25
22024-04-28
22024-05-02
22024-05-03
22024-05-04

期望结果

idlogin_date
12024-04-25
12024-04-26
12024-04-27
12024-04-26
12024-04-27
12024-04-28
12024-04-30
12024-05-01
12024-05-02
22024-05-02
22024-05-03
22024-05-04

期望输出结果中会看到用户1有25,26,27日记录,也会有26,27,28日的记录,那么26,27就会出现两次

3.问题分析

求解每个用户连续三天登录的所有数据记录,相较于上一个连续问题,其区别在于需要考虑明细数据的展示,其解决问题的办法就完全不同了。考察的是对日期加减函数的使用以及对偏移量开窗函数的应用

排序开窗函数详见SQL窗口分析函数使用详解系列三之偏移量类窗口函数

期望输出结果中会看到用户1有25,26,27日记录,也会有26,27,28日的记录,那么26,27就会出现两次,原来数据表中只有一次,所以还是得“生成”数据;

维度评分
题目难度⭐️⭐️⭐️⭐️
题目清晰度⭐️⭐️⭐️⭐️
业务常见度⭐️⭐️

4.解题SQL

1.原始数据求偏移值

使用lead()函数按照用户分组,日期排序,求出后面第三行的日期offset_day1,使用date_add()求解出第三天的日期offset_day2

通过两种方式的偏移值是否相等来进行判断是否连续三天登录

select id,login_date,lead(login_date,2) over(partition by id order by login_date) as offset_day1,date_add(login_date,2) as offset_day2 
from temp.user_login_log
order by id,login_date

数据结果

idlogin_dateoffset_day1offset_day2
12024-04-252024-04-272024-04-27
12024-04-262024-04-282024-04-28
12024-04-272024-04-302024-04-29
12024-04-282024-05-012024-04-30
12024-04-302024-05-022024-05-02
12024-05-012024-05-042024-05-03
12024-05-022024-05-052024-05-04
12024-05-04(null)2024-05-06
12024-05-05(null)2024-05-07
22024-04-252024-05-022024-04-27
22024-04-282024-05-032024-04-30
22024-05-022024-05-042024-05-04
22024-05-03(null)2024-05-05
22024-05-04(null)2024-05-06

清晰的看到偏移窗口函数和日期加减函数的值,之后进行比较。

2.判断是否连续登录

判断当日及之后是否连续三天登录,如果两个偏移值相等则代表为连续登录,否则为非连续登录。

计算出is_cont,然后根据is_cont的标识进行筛选初试连续的日期。比如用户1在25,26,27三天连续登录,筛选出其第一天的日期25。

select id,login_date,offset_day1,offset_day2,if(offset_day1 = offset_day2,1,0) as is_cont 
from (select id,login_date,lead(login_date,2) over(partition by id order by login_date) as offset_day1,date_add(login_date,2) as offset_day2 from temp.user_login_log
) a
order by id,login_date

数据结果

idlogin_dateoffset_day1offset_day2is_cont
12024-04-252024-04-272024-04-271
12024-04-262024-04-282024-04-281
12024-04-272024-04-302024-04-290
12024-04-282024-05-012024-04-300
12024-04-302024-05-022024-05-021
12024-05-012024-05-042024-05-030
12024-05-022024-05-052024-05-040
12024-05-04(null)2024-05-060
12024-05-05(null)2024-05-070
22024-04-252024-05-022024-04-270
22024-04-282024-05-032024-04-300
22024-05-022024-05-042024-05-041
22024-05-03(null)2024-05-050
22024-05-04(null)2024-05-060

可以看出用户1在25号和26号以及30号存在连续登录3天的记录。用户2在05-02存在连续登录三天的记录。

3.筛选连续登录日期

筛选出开始连续登录的日期

select id,login_date,offset_day1,offset_day2,if(offset_day1 = offset_day2,1,0) as is_cont 
from (select id,login_date,offset_day1,offset_day2,if(offset_day1 = offset_day2,1,0) as is_cont from (select id,login_date,lead(login_date,2) over(partition by id order by login_date) as offset_day1,date_add(login_date,2) as offset_day2 from temp.user_login_log) a
) b where b.is_cont = 1
order by id,login_date

数据结果

idlogin_dateoffset_day1offset_day2is_cont
12024-04-252024-04-272024-04-271
12024-04-262024-04-282024-04-281
12024-04-302024-05-022024-05-021
22024-05-022024-05-042024-05-041

筛选出来的结果。

至此,这个可以作为另外一个题目:

判断用户连续登录n天的次数。

实际例子,判断用户连续登录三天的次数。用户1为3次,用户2为1次。

4.生成维表

生成一个0,1,2三行记录的数据。

select explode(array(0,1,2)) as date_list;

这里面涉及到了hive的explode爆炸函数

数据结果

date_list
0
1
2

5.得到预期结果

通过3和4步骤的结果表进行笛卡尔积,得到最终结果。

select c.id,c.login_date,date_add(c.login_date,d.date_list) as login_date_list 
from (select id,login_date,offset_day1,offset_day2,if(offset_day1 = offset_day2,1,0) as is_cont from (select id,login_date,offset_day1,offset_day2,if(offset_day1 = offset_day2,1,0) as is_cont from (select id,login_date,lead(login_date,2) over(partition by id order by login_date) as offset_day1,date_add(login_date,2) as offset_day2 from temp.user_login_log) a) b where b.is_cont = 1
) c
,(select explode(array(0,1,2)) as date_list
) d
order by id,login_date_list

数据结果

idlogin_datelogin_date_list
12024-04-252024-04-25
12024-04-252024-04-26
12024-04-252024-04-27
12024-04-262024-04-26
12024-04-262024-04-27
12024-04-262024-04-28
12024-04-302024-04-30
12024-04-302024-05-01
12024-04-302024-05-02
22024-05-022024-05-02
22024-05-022024-05-03
22024-05-022024-05-04

可以看到用户连续登录的记录在login_date_list列完整展现出来了,和预期结果一致。

5.衍生问题解答

如果求解的不是用户连续三天登录所有记录,而是连续登录之外的断点记录呢?

用另一句话说就是用户哪天没有登录的记录

这个需要我们进行维表数据生成以进行数据求解

下期进行完整解答。

以上,本期全部内容。

感谢阅读。

按例,欢迎点击此处关注我的个人公众号,交流更多知识。

这篇关于大数据SQL面试题每日一题系列:现有用户登录记录表,请查询出用户连续三天登录所有的数据记录的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/975549

相关文章

一文教你Python如何快速精准抓取网页数据

《一文教你Python如何快速精准抓取网页数据》这篇文章主要为大家详细介绍了如何利用Python实现快速精准抓取网页数据,文中的示例代码简洁易懂,具有一定的借鉴价值,有需要的小伙伴可以了解下... 目录1. 准备工作2. 基础爬虫实现3. 高级功能扩展3.1 抓取文章详情3.2 保存数据到文件4. 完整示例

MySQL 多表连接操作方法(INNER JOIN、LEFT JOIN、RIGHT JOIN、FULL OUTER JOIN)

《MySQL多表连接操作方法(INNERJOIN、LEFTJOIN、RIGHTJOIN、FULLOUTERJOIN)》多表连接是一种将两个或多个表中的数据组合在一起的SQL操作,通过连接,... 目录一、 什么是多表连接?二、 mysql 支持的连接类型三、 多表连接的语法四、实战示例 数据准备五、连接的性

MySQL中的分组和多表连接详解

《MySQL中的分组和多表连接详解》:本文主要介绍MySQL中的分组和多表连接的相关操作,本文通过实例代码给大家介绍的非常详细,感兴趣的朋友一起看看吧... 目录mysql中的分组和多表连接一、MySQL的分组(group javascriptby )二、多表连接(表连接会产生大量的数据垃圾)MySQL中的

使用Java将各种数据写入Excel表格的操作示例

《使用Java将各种数据写入Excel表格的操作示例》在数据处理与管理领域,Excel凭借其强大的功能和广泛的应用,成为了数据存储与展示的重要工具,在Java开发过程中,常常需要将不同类型的数据,本文... 目录前言安装免费Java库1. 写入文本、或数值到 Excel单元格2. 写入数组到 Excel表格

MyBatis模糊查询报错:ParserException: not supported.pos 问题解决

《MyBatis模糊查询报错:ParserException:notsupported.pos问题解决》本文主要介绍了MyBatis模糊查询报错:ParserException:notsuppo... 目录问题描述问题根源错误SQL解析逻辑深层原因分析三种解决方案方案一:使用CONCAT函数(推荐)方案二:

python处理带有时区的日期和时间数据

《python处理带有时区的日期和时间数据》这篇文章主要为大家详细介绍了如何在Python中使用pytz库处理时区信息,包括获取当前UTC时间,转换为特定时区等,有需要的小伙伴可以参考一下... 目录时区基本信息python datetime使用timezonepandas处理时区数据知识延展时区基本信息

Qt实现网络数据解析的方法总结

《Qt实现网络数据解析的方法总结》在Qt中解析网络数据通常涉及接收原始字节流,并将其转换为有意义的应用层数据,这篇文章为大家介绍了详细步骤和示例,感兴趣的小伙伴可以了解下... 目录1. 网络数据接收2. 缓冲区管理(处理粘包/拆包)3. 常见数据格式解析3.1 jsON解析3.2 XML解析3.3 自定义

SpringMVC 通过ajax 前后端数据交互的实现方法

《SpringMVC通过ajax前后端数据交互的实现方法》:本文主要介绍SpringMVC通过ajax前后端数据交互的实现方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价... 在前端的开发过程中,经常在html页面通过AJAX进行前后端数据的交互,SpringMVC的controll

SpringBoot UserAgentUtils获取用户浏览器的用法

《SpringBootUserAgentUtils获取用户浏览器的用法》UserAgentUtils是于处理用户代理(User-Agent)字符串的工具类,一般用于解析和处理浏览器、操作系统以及设备... 目录介绍效果图依赖封装客户端工具封装IP工具实体类获取设备信息入库介绍UserAgentUtils

MySQL 中的 JSON 查询案例详解

《MySQL中的JSON查询案例详解》:本文主要介绍MySQL的JSON查询的相关知识,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录mysql 的 jsON 路径格式基本结构路径组件详解特殊语法元素实际示例简单路径复杂路径简写操作符注意MySQL 的 J