银行数仓项目实战(五)--搭建数仓和数据标准化

2024-06-20 06:20

本文主要是介绍银行数仓项目实战(五)--搭建数仓和数据标准化,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 搭建数仓
    • 数据采集
  • 标准层

搭建数仓

数据采集

业务系统源 -》ODS贴源层,添加标签,添加系统来源,添加时间戳
问甲方要建表语句,自己添加etldt字段和来源字段,通过之前文章教的Kettle把数据抽到自己数据库中。
在这里插入图片描述
如图成功即可

标准层

要求对SAACNACN表进行数据标准化,要求如下
在这里插入图片描述
在oracle中新建一个用户命名为SDS,用来存放标准层数据。
新建转换,转换的表输入使用ODS层的数据,对数据进行加工处理,首先统一日期类型,日期类型有SA_PSBK_DL_DT字段和SA_PSWD_DL_DT字段,其中SA_PSBK_DL_DT字段表中是STRING类型,SA_PSWD_DL_DT字段表中是DATE类型,要求我们把字段类型改为varchar(8),格式为yyyyMMdd,我们需要先把SA_PSBK_DL_DT字段转换为DATE类型,
在这里插入图片描述

再将这两个字段统一转换成String类型,长度设置为8

在这里插入图片描述
由于翻译码值时由于字符长短问题会报错,故而先把字段长度拓宽。
再对码值进行替换,参考国家发布的标准以及人民银行给的标准,翻译码值如下所示
在这里插入图片描述
在这里插入图片描述
对于源数据中的脏数据(以身份证长度不足为例),我们要进行清洗。首先计算身份证的长度,不足18位的视为脏数据将其保存到日志中,以待后续检查修改
在这里插入图片描述
将清洗后的数据插入到SDS层的表中,完成数据标准化。

这篇关于银行数仓项目实战(五)--搭建数仓和数据标准化的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1077339

相关文章

Python并行处理实战之如何使用ProcessPoolExecutor加速计算

《Python并行处理实战之如何使用ProcessPoolExecutor加速计算》Python提供了多种并行处理的方式,其中concurrent.futures模块的ProcessPoolExecu... 目录简介完整代码示例代码解释1. 导入必要的模块2. 定义处理函数3. 主函数4. 生成数字列表5.

SpringBoot项目配置logback-spring.xml屏蔽特定路径的日志

《SpringBoot项目配置logback-spring.xml屏蔽特定路径的日志》在SpringBoot项目中,使用logback-spring.xml配置屏蔽特定路径的日志有两种常用方式,文中的... 目录方案一:基础配置(直接关闭目标路径日志)方案二:结合 Spring Profile 按环境屏蔽关

canal实现mysql数据同步的详细过程

《canal实现mysql数据同步的详细过程》:本文主要介绍canal实现mysql数据同步的详细过程,本文通过实例图文相结合给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的... 目录1、canal下载2、mysql同步用户创建和授权3、canal admin安装和启动4、canal

使用SpringBoot整合Sharding Sphere实现数据脱敏的示例

《使用SpringBoot整合ShardingSphere实现数据脱敏的示例》ApacheShardingSphere数据脱敏模块,通过SQL拦截与改写实现敏感信息加密存储,解决手动处理繁琐及系统改... 目录痛点一:痛点二:脱敏配置Quick Start——Spring 显示配置:1.引入依赖2.创建脱敏

MySQL版本问题导致项目无法启动问题的解决方案

《MySQL版本问题导致项目无法启动问题的解决方案》本文记录了一次因MySQL版本不一致导致项目启动失败的经历,详细解析了连接错误的原因,并提供了两种解决方案:调整连接字符串禁用SSL或统一MySQL... 目录本地项目启动报错报错原因:解决方案第一个:第二种:容器启动mysql的坑两种修改时区的方法:本地

详解如何使用Python构建从数据到文档的自动化工作流

《详解如何使用Python构建从数据到文档的自动化工作流》这篇文章将通过真实工作场景拆解,为大家展示如何用Python构建自动化工作流,让工具代替人力完成这些数字苦力活,感兴趣的小伙伴可以跟随小编一起... 目录一、Excel处理:从数据搬运工到智能分析师二、PDF处理:文档工厂的智能生产线三、邮件自动化:

springboot项目中使用JOSN解析库的方法

《springboot项目中使用JOSN解析库的方法》JSON,全程是JavaScriptObjectNotation,是一种轻量级的数据交换格式,本文给大家介绍springboot项目中使用JOSN... 目录一、jsON解析简介二、Spring Boot项目中使用JSON解析1、pom.XML文件引入依

如何搭建并配置HTTPD文件服务及访问权限控制

《如何搭建并配置HTTPD文件服务及访问权限控制》:本文主要介绍如何搭建并配置HTTPD文件服务及访问权限控制的问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、安装HTTPD服务二、HTTPD服务目录结构三、配置修改四、服务启动五、基于用户访问权限控制六、

Python数据分析与可视化的全面指南(从数据清洗到图表呈现)

《Python数据分析与可视化的全面指南(从数据清洗到图表呈现)》Python是数据分析与可视化领域中最受欢迎的编程语言之一,凭借其丰富的库和工具,Python能够帮助我们快速处理、分析数据并生成高质... 目录一、数据采集与初步探索二、数据清洗的七种武器1. 缺失值处理策略2. 异常值检测与修正3. 数据

pandas实现数据concat拼接的示例代码

《pandas实现数据concat拼接的示例代码》pandas.concat用于合并DataFrame或Series,本文主要介绍了pandas实现数据concat拼接的示例代码,具有一定的参考价值,... 目录语法示例:使用pandas.concat合并数据默认的concat:参数axis=0,join=