hive数仓建立时间维表

2023-10-24 07:59
文章标签 时间 建立 数仓 hive 维表

本文主要是介绍hive数仓建立时间维表,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

    • 1.首先利用python中的datetime模块获取到我们想要的日期
    • 2.接着将获取到的日期加载到hdfs中
      • 1)建立存放日期的预处理表
      • 2)将数据导入预处理表中
    • 3.通过sql处理获得我们想要的维表
      • 1)新建时间维表
      • 2)sql处理并写入时间维表
      • 3)检验数据结果

1.首先利用python中的datetime模块获取到我们想要的日期

import datetime# 现在的时间
now=datetime.datetime.strptime('2019-01-01','%Y-%m-%d')# 递增的时间
delta = datetime.timedelta(days=1)
# 1000天后的时间
endnow = now + datetime.timedelta(days=1100)
# 1000天后的时间转换成字符串
endnow = str(endnow.strftime('%Y-%m-%d'))# 当日期增加到1000天后的日期,循环结束
while str(now.strftime('%Y-%m-%d')) != endnow:now += deltaprint(str(now.strftime('%Y-%m-%d')))

2.接着将获取到的日期加载到hdfs中

1)建立存放日期的预处理表

-- 放日期的维表
CREATE EXTERNAL TABLE IF NOT EXISTS tmp_super_date_wml_01
(dates                                 STRING COMMENT '日期'
)
COMMENT '时间维表预处理'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS textfile
LOCATION '/user/hive/warehouse/zhidao.db/tmp_super_date_wml_01';

2)将数据导入预处理表中

a.可以看到我们的csv数据文件已经准备就绪
在这里插入图片描述
b.好啦!我们在hive的基础日期数据也已经准备就绪!在这里插入图片描述

3.通过sql处理获得我们想要的维表

1)新建时间维表

CREATE EXTERNAL TABLE IF NOT EXISTS dim_zhidao_time_info
(  
date_id                 BIGINT COMMENT '日期ID',
date_mid_desc           STRING COMMENT '中日期',
date_long_desc          STRING COMMENT '长日期',
year_id                 BIGINT COMMENT '年ID',                                    
year_desc               STRING COMMENT '年',             
month_id                STRING COMMENT '月ID',
month_long_desc         STRING COMMENT '长月',
weekday_cn              STRING COMMENT '周几(中文)',           
weekday_eg              STRING COMMENT '周几(英文)',   
week_id                 BIGINT COMMENT '周ID',
week_long_desc          STRING COMMENT 'yyyy年第w周',
daynumber_of_week       BIGINT COMMENT '本周的第几天',    
daynumber_of_year       BIGINT COMMENT '今年的第几天'    
)
COMMENT '时间维表'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS orc
LOCATION '/user/hive/warehouse/zhidao.db/dim_zhidao_time_info';

2)sql处理并写入时间维表

INSERT OVERWRITE TABLE zhidao.dim_zhidao_time_info
SELECT
regexp_replace(dates,'-','') as date_id,
date(dates) as date_mid_desc,
from_unixtime(unix_timestamp(dates,'yyyy-MM-dd'),'yyyy年MM月dd日') as date_long_desc,
year(dates) as year_id,                                                                      -- 年
from_unixtime(unix_timestamp(dates,'yyyy-MM-dd'),'Y年') as year_desc,                  -- 年
from_unixtime(unix_timestamp(dates,'yyyy-MM-dd'),'yyyy-MM') as month_id,
from_unixtime(unix_timestamp(dates,'yyyy-MM-dd'),'yyyy年MM月') month_long_desc,
case when pmod(datediff(dates, '2012-01-01'), 7) = 0 then '星期日'when pmod(datediff(dates, '2012-01-01'), 7) = 1 then '星期一'when pmod(datediff(dates, '2012-01-01'), 7) = 2 then '星期二'when pmod(datediff(dates, '2012-01-01'), 7) = 3 then '星期三'when pmod(datediff(dates, '2012-01-01'), 7) = 4 then '星期四' when pmod(datediff(dates, '2012-01-01'), 7) = 5 then '星期五'when pmod(datediff(dates, '2012-01-01'), 7) = 6 then '星期六'else pmod(datediff(dates, '2012-01-01'), 7) end as weekday_cn,                 -- 周几(中文) 
from_unixtime(unix_timestamp(dates,'yyyy-MM-dd'),'EEEE') as weekday_eg,    -- 周几(英文)    
from_unixtime(unix_timestamp(dates,'yyyy-MM-dd'),'w') week_id,
from_unixtime(unix_timestamp(dates,'yyyy-MM-dd'),'yyyy年第w周') week_long_desc,
from_unixtime(unix_timestamp(dates,'yyyy-MM-dd'),'u') as daynumber_of_week,     -- 本周的第几天
from_unixtime(unix_timestamp(dates,'yyyy-MM-dd'),'D') as daynumber_of_year     -- 今年的第几天from zhidao.tmp_super_date_wml_01;

3)检验数据结果

在这里插入图片描述

这篇关于hive数仓建立时间维表的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/273808

相关文章

Java controller接口出入参时间序列化转换操作方法(两种)

《Javacontroller接口出入参时间序列化转换操作方法(两种)》:本文主要介绍Javacontroller接口出入参时间序列化转换操作方法,本文给大家列举两种简单方法,感兴趣的朋友一起看... 目录方式一、使用注解方式二、统一配置场景:在controller编写的接口,在前后端交互过程中一般都会涉及

python处理带有时区的日期和时间数据

《python处理带有时区的日期和时间数据》这篇文章主要为大家详细介绍了如何在Python中使用pytz库处理时区信息,包括获取当前UTC时间,转换为特定时区等,有需要的小伙伴可以参考一下... 目录时区基本信息python datetime使用timezonepandas处理时区数据知识延展时区基本信息

Python的time模块一些常用功能(各种与时间相关的函数)

《Python的time模块一些常用功能(各种与时间相关的函数)》Python的time模块提供了各种与时间相关的函数,包括获取当前时间、处理时间间隔、执行时间测量等,:本文主要介绍Python的... 目录1. 获取当前时间2. 时间格式化3. 延时执行4. 时间戳运算5. 计算代码执行时间6. 转换为指

Java中字符串转时间与时间转字符串的操作详解

《Java中字符串转时间与时间转字符串的操作详解》Java的java.time包提供了强大的日期和时间处理功能,通过DateTimeFormatter可以轻松地在日期时间对象和字符串之间进行转换,下面... 目录一、字符串转时间(一)使用预定义格式(二)自定义格式二、时间转字符串(一)使用预定义格式(二)自

Java中Date、LocalDate、LocalDateTime、LocalTime、时间戳之间的相互转换代码

《Java中Date、LocalDate、LocalDateTime、LocalTime、时间戳之间的相互转换代码》:本文主要介绍Java中日期时间转换的多种方法,包括将Date转换为LocalD... 目录一、Date转LocalDateTime二、Date转LocalDate三、LocalDateTim

golang获取当前时间、时间戳和时间字符串及它们之间的相互转换方法

《golang获取当前时间、时间戳和时间字符串及它们之间的相互转换方法》:本文主要介绍golang获取当前时间、时间戳和时间字符串及它们之间的相互转换,本文通过实例代码给大家介绍的非常详细,感兴趣... 目录1、获取当前时间2、获取当前时间戳3、获取当前时间的字符串格式4、它们之间的相互转化上篇文章给大家介

Feign Client超时时间设置不生效的解决方法

《FeignClient超时时间设置不生效的解决方法》这篇文章主要为大家详细介绍了FeignClient超时时间设置不生效的原因与解决方法,具有一定的的参考价值,希望对大家有一定的帮助... 在使用Feign Client时,可以通过两种方式来设置超时时间:1.针对整个Feign Client设置超时时间

springboot+dubbo实现时间轮算法

《springboot+dubbo实现时间轮算法》时间轮是一种高效利用线程资源进行批量化调度的算法,本文主要介绍了springboot+dubbo实现时间轮算法,文中通过示例代码介绍的非常详细,对大家... 目录前言一、参数说明二、具体实现1、HashedwheelTimer2、createWheel3、n

Java实现时间与字符串互相转换详解

《Java实现时间与字符串互相转换详解》这篇文章主要为大家详细介绍了Java中实现时间与字符串互相转换的相关方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、日期格式化为字符串(一)使用预定义格式(二)自定义格式二、字符串解析为日期(一)解析ISO格式字符串(二)解析自定义

Java时间轮调度算法的代码实现

《Java时间轮调度算法的代码实现》时间轮是一种高效的定时调度算法,主要用于管理延时任务或周期性任务,它通过一个环形数组(时间轮)和指针来实现,将大量定时任务分摊到固定的时间槽中,极大地降低了时间复杂... 目录1、简述2、时间轮的原理3. 时间轮的实现步骤3.1 定义时间槽3.2 定义时间轮3.3 使用时