大数据SQL面试题每日一题系列:现有用户登录记录表,请查询出用户连续三天登录所有的数据记录

本文主要是介绍大数据SQL面试题每日一题系列:现有用户登录记录表,请查询出用户连续三天登录所有的数据记录,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

之后会不定期更新每日一题sql系列。

SQL面试题每日一题系列内容均来自于网络以及实际使用情况收集,如与各大厂面试题有雷同,纯属巧合。

1.题目

问题:以下为多个用户每日登录记录数据,已经按照用户登录日期进行了去重处理,求解出每个用户连续三天登录所有的数据记录

此题也和求解用户连续登录n天的次数题目求解方式重合。

2.基础数据准备

基于上一题SQL面试题每日一题-求解用户最长连续登录天数数据源做了一定修正,方便理解。

create table if not exists temp.user_login_log (`id` bigint comment '用户id',`login_date` string comment '登录日期'
) comment '用户每日登录流水'

数据预览

idlogin_date
12024-04-25
12024-04-26
12024-04-27
12024-04-28
12024-04-30
12024-05-01
12024-05-02
12024-05-04
12024-05-05
22024-04-25
22024-04-28
22024-05-02
22024-05-03
22024-05-04

期望结果

idlogin_date
12024-04-25
12024-04-26
12024-04-27
12024-04-26
12024-04-27
12024-04-28
12024-04-30
12024-05-01
12024-05-02
22024-05-02
22024-05-03
22024-05-04

期望输出结果中会看到用户1有25,26,27日记录,也会有26,27,28日的记录,那么26,27就会出现两次

3.问题分析

求解每个用户连续三天登录的所有数据记录,相较于上一个连续问题,其区别在于需要考虑明细数据的展示,其解决问题的办法就完全不同了。考察的是对日期加减函数的使用以及对偏移量开窗函数的应用

排序开窗函数详见SQL窗口分析函数使用详解系列三之偏移量类窗口函数

期望输出结果中会看到用户1有25,26,27日记录,也会有26,27,28日的记录,那么26,27就会出现两次,原来数据表中只有一次,所以还是得“生成”数据;

维度评分
题目难度⭐️⭐️⭐️⭐️
题目清晰度⭐️⭐️⭐️⭐️
业务常见度⭐️⭐️

4.解题SQL

1.原始数据求偏移值

使用lead()函数按照用户分组,日期排序,求出后面第三行的日期offset_day1,使用date_add()求解出第三天的日期offset_day2

通过两种方式的偏移值是否相等来进行判断是否连续三天登录

select id,login_date,lead(login_date,2) over(partition by id order by login_date) as offset_day1,date_add(login_date,2) as offset_day2 
from temp.user_login_log
order by id,login_date

数据结果

idlogin_dateoffset_day1offset_day2
12024-04-252024-04-272024-04-27
12024-04-262024-04-282024-04-28
12024-04-272024-04-302024-04-29
12024-04-282024-05-012024-04-30
12024-04-302024-05-022024-05-02
12024-05-012024-05-042024-05-03
12024-05-022024-05-052024-05-04
12024-05-04(null)2024-05-06
12024-05-05(null)2024-05-07
22024-04-252024-05-022024-04-27
22024-04-282024-05-032024-04-30
22024-05-022024-05-042024-05-04
22024-05-03(null)2024-05-05
22024-05-04(null)2024-05-06

清晰的看到偏移窗口函数和日期加减函数的值,之后进行比较。

2.判断是否连续登录

判断当日及之后是否连续三天登录,如果两个偏移值相等则代表为连续登录,否则为非连续登录。

计算出is_cont,然后根据is_cont的标识进行筛选初试连续的日期。比如用户1在25,26,27三天连续登录,筛选出其第一天的日期25。

select id,login_date,offset_day1,offset_day2,if(offset_day1 = offset_day2,1,0) as is_cont 
from (select id,login_date,lead(login_date,2) over(partition by id order by login_date) as offset_day1,date_add(login_date,2) as offset_day2 from temp.user_login_log
) a
order by id,login_date

数据结果

idlogin_dateoffset_day1offset_day2is_cont
12024-04-252024-04-272024-04-271
12024-04-262024-04-282024-04-281
12024-04-272024-04-302024-04-290
12024-04-282024-05-012024-04-300
12024-04-302024-05-022024-05-021
12024-05-012024-05-042024-05-030
12024-05-022024-05-052024-05-040
12024-05-04(null)2024-05-060
12024-05-05(null)2024-05-070
22024-04-252024-05-022024-04-270
22024-04-282024-05-032024-04-300
22024-05-022024-05-042024-05-041
22024-05-03(null)2024-05-050
22024-05-04(null)2024-05-060

可以看出用户1在25号和26号以及30号存在连续登录3天的记录。用户2在05-02存在连续登录三天的记录。

3.筛选连续登录日期

筛选出开始连续登录的日期

select id,login_date,offset_day1,offset_day2,if(offset_day1 = offset_day2,1,0) as is_cont 
from (select id,login_date,offset_day1,offset_day2,if(offset_day1 = offset_day2,1,0) as is_cont from (select id,login_date,lead(login_date,2) over(partition by id order by login_date) as offset_day1,date_add(login_date,2) as offset_day2 from temp.user_login_log) a
) b where b.is_cont = 1
order by id,login_date

数据结果

idlogin_dateoffset_day1offset_day2is_cont
12024-04-252024-04-272024-04-271
12024-04-262024-04-282024-04-281
12024-04-302024-05-022024-05-021
22024-05-022024-05-042024-05-041

筛选出来的结果。

至此,这个可以作为另外一个题目:

判断用户连续登录n天的次数。

实际例子,判断用户连续登录三天的次数。用户1为3次,用户2为1次。

4.生成维表

生成一个0,1,2三行记录的数据。

select explode(array(0,1,2)) as date_list;

这里面涉及到了hive的explode爆炸函数

数据结果

date_list
0
1
2

5.得到预期结果

通过3和4步骤的结果表进行笛卡尔积,得到最终结果。

select c.id,c.login_date,date_add(c.login_date,d.date_list) as login_date_list 
from (select id,login_date,offset_day1,offset_day2,if(offset_day1 = offset_day2,1,0) as is_cont from (select id,login_date,offset_day1,offset_day2,if(offset_day1 = offset_day2,1,0) as is_cont from (select id,login_date,lead(login_date,2) over(partition by id order by login_date) as offset_day1,date_add(login_date,2) as offset_day2 from temp.user_login_log) a) b where b.is_cont = 1
) c
,(select explode(array(0,1,2)) as date_list
) d
order by id,login_date_list

数据结果

idlogin_datelogin_date_list
12024-04-252024-04-25
12024-04-252024-04-26
12024-04-252024-04-27
12024-04-262024-04-26
12024-04-262024-04-27
12024-04-262024-04-28
12024-04-302024-04-30
12024-04-302024-05-01
12024-04-302024-05-02
22024-05-022024-05-02
22024-05-022024-05-03
22024-05-022024-05-04

可以看到用户连续登录的记录在login_date_list列完整展现出来了,和预期结果一致。

5.衍生问题解答

如果求解的不是用户连续三天登录所有记录,而是连续登录之外的断点记录呢?

用另一句话说就是用户哪天没有登录的记录

这个需要我们进行维表数据生成以进行数据求解

下期进行完整解答。

以上,本期全部内容。

感谢阅读。

按例,欢迎点击此处关注我的个人公众号,交流更多知识。

这篇关于大数据SQL面试题每日一题系列:现有用户登录记录表,请查询出用户连续三天登录所有的数据记录的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/975549

相关文章

MySQL数据库双机热备的配置方法详解

《MySQL数据库双机热备的配置方法详解》在企业级应用中,数据库的高可用性和数据的安全性是至关重要的,MySQL作为最流行的开源关系型数据库管理系统之一,提供了多种方式来实现高可用性,其中双机热备(M... 目录1. 环境准备1.1 安装mysql1.2 配置MySQL1.2.1 主服务器配置1.2.2 从

深入理解Mysql OnlineDDL的算法

《深入理解MysqlOnlineDDL的算法》本文主要介绍了讲解MysqlOnlineDDL的算法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小... 目录一、Online DDL 是什么?二、Online DDL 的三种主要算法2.1COPY(复制法)

Linux下利用select实现串口数据读取过程

《Linux下利用select实现串口数据读取过程》文章介绍Linux中使用select、poll或epoll实现串口数据读取,通过I/O多路复用机制在数据到达时触发读取,避免持续轮询,示例代码展示设... 目录示例代码(使用select实现)代码解释总结在 linux 系统里,我们可以借助 select、

mysql8.0.43使用InnoDB Cluster配置主从复制

《mysql8.0.43使用InnoDBCluster配置主从复制》本文主要介绍了mysql8.0.43使用InnoDBCluster配置主从复制,文中通过示例代码介绍的非常详细,对大家的学习或者... 目录1、配置Hosts解析(所有服务器都要执行)2、安装mysql shell(所有服务器都要执行)3、

k8s中实现mysql主备过程详解

《k8s中实现mysql主备过程详解》文章讲解了在K8s中使用StatefulSet部署MySQL主备架构,包含NFS安装、storageClass配置、MySQL部署及同步检查步骤,确保主备数据一致... 目录一、k8s中实现mysql主备1.1 环境信息1.2 部署nfs-provisioner1.2.

MySQL中VARCHAR和TEXT的区别小结

《MySQL中VARCHAR和TEXT的区别小结》MySQL中VARCHAR和TEXT用于存储字符串,VARCHAR可变长度存储在行内,适合短文本;TEXT存储在溢出页,适合大文本,下面就来具体的了解... 目录一、VARCHAR 和 TEXT 基本介绍1. VARCHAR2. TEXT二、VARCHAR

MySQL中C接口的实现

《MySQL中C接口的实现》本节内容介绍使用C/C++访问数据库,包括对数据库的增删查改操作,主要是学习一些接口的调用,具有一定的参考价值,感兴趣的可以了解一下... 目录准备mysql库使用mysql库编译文件官方API文档对象的创建和关闭链接数据库下达sql指令select语句前言:本节内容介绍使用C/

Spring Boot分层架构详解之从Controller到Service再到Mapper的完整流程(用户管理系统为例)

《SpringBoot分层架构详解之从Controller到Service再到Mapper的完整流程(用户管理系统为例)》本文将以一个实际案例(用户管理系统)为例,详细解析SpringBoot中Co... 目录引言:为什么学习Spring Boot分层架构?第一部分:Spring Boot的整体架构1.1

mybatis直接执行完整sql及踩坑解决

《mybatis直接执行完整sql及踩坑解决》MyBatis可通过select标签执行动态SQL,DQL用ListLinkedHashMap接收结果,DML用int处理,注意防御SQL注入,优先使用#... 目录myBATiFBNZQs直接执行完整sql及踩坑select语句采用count、insert、u

MySQL之搜索引擎使用解读

《MySQL之搜索引擎使用解读》MySQL存储引擎是数据存储和管理的核心组件,不同引擎(如InnoDB、MyISAM)采用不同机制,InnoDB支持事务与行锁,适合高并发场景;MyISAM不支持事务,... 目录mysql的存储引擎是什么MySQL存储引擎的功能MySQL的存储引擎的分类查看存储引擎1.命令