数仓开发那些事_番外

2024-06-18 06:52
文章标签 开发 数仓 番外

本文主要是介绍数仓开发那些事_番外,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一位神州的正式员工(没错,就是之前文章中出现的实习生):一闪,你今年涨工资了吗?

一闪:mad,一年辛苦到头只涨了500米

神州员工:你去年绩效不是优秀吗,怎么就涨了500米,还没我零头多

一闪:放肆!

(听说是当时招进来开的工资太高....导致涨薪的时候人资不通过....最后只涨了这么点.....)

一闪表示不理解,但是尊重

---------------------回到工作

老师傅:一闪,写Flink SQL的时候遇到个问题,来帮我看看。

-- Flink SQL
CREATE TEMPORARY VIEW temp AS
SELECT b.corp_name,a.sale_amount
FROM 
(SELECT corp_no,sale_amount -- 销售金额FROM 销售事实表 a -- Flink的流表
) a
inner join 
(selectcorp_no,corp_namefrom 门店_维度表 -- Flink的维表group by corp_no,corp_name
) b
on a.corp_no = b.corp_no
;

一闪:我先来分析一下你这段代码,你有一个事实表,里面存了公司编号和销售金额。你需要关联维度表来取到公司名称,不过的维度表原来是门店维度,所以你写了一个子查询,对该表里面的公司进行去重,确保公司关联公司数据不会重复。

老师傅:没错没错,就是这个需求,你来帮我看看代码上有啥问题没有?

一闪:好像没啥问题啊,至少运行不会报错,现在是有啥病症吗?

老师傅:每次任务重启的时候,数据都没问题,但是过了一段时间之后,数据就不准了,估计只能坚挺48小时不到......(我为什么要用坚挺这个词??)

一闪:(作为一名数据开发的资深叼毛,对数据的敏感性突现)48小时不到....并且刚重启时是正常的,理性分析一波,我猜问题应该是出在维度数据上...(但是flink的维表一般是不可能数据过期的啊)

------------去厕所放空一下

!!!!想明白了,问题应该在Flink的过期参数上!table.exec.state.ttl!!这个参数正好是36小时,小于老师傅说的48小时。

------------裤子一提冲出厕所

一闪默认流数据过期时间36小时,所以你的表数据过期了,导致关联的时候出了问题。既然你说任务刚重启时没有问题,我理解事实表的逻辑没有问题,所以(BGM起)心机之蛙一直摸你肚子,凶手就是你的子查询让维表被系统解析成了流表,36小时后自动失效,导致结果数据出现问题。

老师傅:卧槽牛b,那么大师,我该怎么改呢,要不我把参数改成永不失效?

一闪:(流汗)亲,建议你直接做一张公司的维度表吧,你如果把参数改成永不失效,我相信代码和你都可以跑了

这篇关于数仓开发那些事_番外的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1071588

相关文章

一文详解Python如何开发游戏

《一文详解Python如何开发游戏》Python是一种非常流行的编程语言,也可以用来开发游戏模组,:本文主要介绍Python如何开发游戏的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下... 目录一、python简介二、Python 开发 2D 游戏的优劣势优势缺点三、Python 开发 3D

基于Python开发Windows自动更新控制工具

《基于Python开发Windows自动更新控制工具》在当今数字化时代,操作系统更新已成为计算机维护的重要组成部分,本文介绍一款基于Python和PyQt5的Windows自动更新控制工具,有需要的可... 目录设计原理与技术实现系统架构概述数学建模工具界面完整代码实现技术深度分析多层级控制理论服务层控制注

Java中的分布式系统开发基于 Zookeeper 与 Dubbo 的应用案例解析

《Java中的分布式系统开发基于Zookeeper与Dubbo的应用案例解析》本文将通过实际案例,带你走进基于Zookeeper与Dubbo的分布式系统开发,本文通过实例代码给大家介绍的非常详... 目录Java 中的分布式系统开发基于 Zookeeper 与 Dubbo 的应用案例一、分布式系统中的挑战二

基于Go语言开发一个 IP 归属地查询接口工具

《基于Go语言开发一个IP归属地查询接口工具》在日常开发中,IP地址归属地查询是一个常见需求,本文将带大家使用Go语言快速开发一个IP归属地查询接口服务,有需要的小伙伴可以了解下... 目录功能目标技术栈项目结构核心代码(main.go)使用方法扩展功能总结在日常开发中,IP 地址归属地查询是一个常见需求:

基于 Cursor 开发 Spring Boot 项目详细攻略

《基于Cursor开发SpringBoot项目详细攻略》Cursor是集成GPT4、Claude3.5等LLM的VSCode类AI编程工具,支持SpringBoot项目开发全流程,涵盖环境配... 目录cursor是什么?基于 Cursor 开发 Spring Boot 项目完整指南1. 环境准备2. 创建

SpringBoot 多环境开发实战(从配置、管理与控制)

《SpringBoot多环境开发实战(从配置、管理与控制)》本文详解SpringBoot多环境配置,涵盖单文件YAML、多文件模式、MavenProfile分组及激活策略,通过优先级控制灵活切换环境... 目录一、多环境开发基础(单文件 YAML 版)(一)配置原理与优势(二)实操示例二、多环境开发多文件版

使用docker搭建嵌入式Linux开发环境

《使用docker搭建嵌入式Linux开发环境》本文主要介绍了使用docker搭建嵌入式Linux开发环境,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 目录1、前言2、安装docker3、编写容器管理脚本4、创建容器1、前言在日常开发全志、rk等不同

Python实战之SEO优化自动化工具开发指南

《Python实战之SEO优化自动化工具开发指南》在数字化营销时代,搜索引擎优化(SEO)已成为网站获取流量的重要手段,本文将带您使用Python开发一套完整的SEO自动化工具,需要的可以了解下... 目录前言项目概述技术栈选择核心模块实现1. 关键词研究模块2. 网站技术seo检测模块3. 内容优化分析模

基于Java开发一个极简版敏感词检测工具

《基于Java开发一个极简版敏感词检测工具》这篇文章主要为大家详细介绍了如何基于Java开发一个极简版敏感词检测工具,文中的示例代码简洁易懂,感兴趣的小伙伴可以跟随小编一起学习一下... 目录你是否还在为敏感词检测头疼一、极简版Java敏感词检测工具的3大核心优势1.1 优势1:DFA算法驱动,效率提升10

Python开发简易网络服务器的示例详解(新手入门)

《Python开发简易网络服务器的示例详解(新手入门)》网络服务器是互联网基础设施的核心组件,它本质上是一个持续运行的程序,负责监听特定端口,本文将使用Python开发一个简单的网络服务器,感兴趣的小... 目录网络服务器基础概念python内置服务器模块1. HTTP服务器模块2. Socket服务器模块