ETL考试当天学习总结:

2024-03-09 10:38
文章标签 学习 总结 考试 etl 当天

本文主要是介绍ETL考试当天学习总结:,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

ETL考试当天学习总结:
昨天自己考的并不理想,选择题错了九个,其中有一半时oracle的,说明了一件事,你并没有去认真学,最起码这段时间
没有认真学,既然发现了这个弊端 该怎么做呢 脚落地面的踏踏实实的,保持谦虚保持谨慎
现在有如下内容:是考试前记错或者没有记住甚至不知道的
以下为一点都不会,也没蒙对的:
1.union是主动组件
2.ETL工具:
informatica、datasatge、kettle
3.数据仓库建设中一般先建设原始凭证层
4.oracle 没有for循环
有的是for loop 、 while loop、 loop 这是oracle的知识点
5.在PL/SQL代码块的异常处理
块中铺货所有异常的关键词是OTHERS 这是oracle的知识点
6.数据抽取阶段的主要任务是
连接并访问原系统的数据OBDC
变化数据捕获
抽取数据到数据准备区
为后续处理做数据准备
7.元数据主要包含以下几个方面的内容:
(最不该错的 ,中午还手写了一遍)
对数据库方面的描述,包括各种对象和对象属性的定义
对实体的属性和实体之间关系的描述
对数据库中各种物理表、表之间的搞关系和属性的描述
数据流动的描述,各种维度的描述
对ETL过程中产生的映射关系、转换规则、数据的流动进行描述
8.SQL语句中修改表结构的命令是ALTER TABLE
9.数据的完整性约束是对数据描述的某种约束条件,属于关系型数据模型完整星星约束的是
实体完整性
参照完整性
用户定义完整性
10.is_date(invoice_date,‘yyyy-mm-dd’)
注:匹配返回1 不匹配返回0 null 返回null
11.优化数据库的方法:
建立索引
过滤条件后将重复次数高的放在前面
有group by时 尽量用where 先做筛选 having 只是做剔除不需要的分组工作
需要统计行数时,使用count(1) 而不是count(*)
尽量减少嵌套查询

以下为真的不会或真的记忆模糊但是蒙对的:
12.数据缺陷包含以下几种情况:
数据重复、数据缺失、数据错误、数据范围混淆
13.在oracle中获取前十条数据的关键字是rownum
14.下列属于元数据的是:
Mapping的名字
Session名字
数据库表里的明细数据
Workflow的名字
15.数据质量衡量标准:
定义的数据是否和实际数值相同
指标数据是否符合业务规则
数据是否和业务源系统中的信息保持一致
数据是否违背自然规律或者不符合常理
16.ETL转换过程可能包括以下几个方面:
对空值的处理:如果在转换过程中捕获到某些字段存在空值,在进行加载时需要将空值替换成某一数据
或者直接进行加载,不做任何转换
对数据格式的规范化:根据业务数据源中在那个各个字段的数据类型,进行数据格式的规范和统一。
例如,统一数值类型转换成字符串类型
对缺失数据的替换,根据业务需求对缺失数据进行替换
根据业务规则对数据进行过滤
17.数据加载策略
时间戳的加载方式
全表对比的加载方式
通过读取日志表进行加载的方式
全表删除后再进行加载的方式
18.ETL的框架结构包括以下几个方面:
ETL调度
抽取策略
转换策略
加载策略
19.影响ETL数据质量的关键因素包括以下几种情况:
可能会有一部分数据因为客观或者人为的原因导致数据格式混乱
源系统设计存在不合理性
在开发过程中,因为开发人员的错误或者设计人员对业务规则描述的问题,同样会导致数据质量问题出现
20.元数据的作用:
帮助用户理解数据仓库系统中的数据
用于数据仓库系统的集成
保证数据的质量
提高数据仓库系统的灵活性
21.属于元数据的有:
Mapping的名字,Session的名字,Workflow的名字
22.数据仓库特性:
面向主题,时变性,继承性,稳定性
23.DDL
:CREATE SELECT DROP
24.DCL:
GRANT REVOKE COMMIT ROLLBACK
25.数据更新策略:
DD_INSERT DD_UPDATE DD_DELETE DD_REJECT
记住了但是需要重复重复的:
26.informatica客户端与服务端通信需要配置:
域名、网关主机、网关端口
27.数据抽取时需要考虑很多因素,
包括抽取方式、抽取时间、抽取周期
在抽取之前确定业务系统的数据情况

28.统一调度是ETL中较为重要的功能。通常有以下两种调度方式:
自动调度方式和手动调度方式
29.Mapplet/Reusable Transformation及区别
mapplet 可以包含多个组件 reusable transformation 只能有一个组件
30.ETL及其目的:
etl即抽取、转换、装载的过程;
目的:将企业中分散的、凌乱的、标准不统一的数据整合到一起,用于支持管理决策
31.简述informatica更新策略
DD_INSERT DD_UPDATE DD_DELETE DD_REJECT
32.简述增量抽取条件并详细论述informatica是如何实现增量抽取的
条件:1.数据量较大 2.随着时间的推移数据不断增加
1).第一个增量抽取模型string最好用
SETVARIABLE( d a t e , t o c h a r ( S E S S S T A R T T I M E , ′ y y y y − m m − d d h h 24 : m i : s s ′ ) ) 2 ) . 第 二 个 增 量 抽 取 模 型 d a t e 类 型 S E T V A R I A B L E ( date,to_char(SESSSTARTTIME,'yyyy-mm-dd hh24:mi:ss')) 2).第二个增量抽取模型date类型 SETVARIABLE( date,tochar(SESSSTARTTIME,yyyymmddhh24:mi:ss))2.dateSETVARIABLE(date,SESSSTARTTIME)
3).第三种增量抽取模型,
按最大值 SETMAXVARIABLE(hiredate)
下次对大于上次的最大值的进行抽取
SETMAXVARIABLE($$date,EMPLOYEE_ID)
4).增量抽取第四个模型,
对当天的数据进行抽取 trunc(sysdate)
5).还有第五种增量抽取变形在前四种基础上进行,为原表添加额外字段,将需要修改的行,此行该列值设为最新时间,用前四种方法进行筛选更新hiredate>$date or 新字段 >$date
33.主被动组件及informatica数据流规则:
主动组件:数据流经记录数发生改变(union)
被动组件:数据流经记录数不发生改变
数据流规则:主动组件不允许分叉、被动组件允许分叉
34.存储过程和ETL区别:
存储过程和ETL工具都是实现ETL过程的重要步骤。
ETL工具:时数据处理可视化,比较容易理解和操作;
减少数据库的压力,把数据处理的压力转移到ETL服务器上;
方便部署和调度
缺点:对于复杂逻辑的开发有些难度;维护及修改开销较大
存储过程:后期方便维护和修改;对于复杂逻辑的开发较容易实现
35.简述informatica上笛卡尔积和自连接时怎样实现的:
笛卡尔积时用f(x)组件在两表分别添加一个字段 列值均相同 用joiner组件对新添字段进行关联
自连接用两个排序组件对需要关联的字段进行排序 然后连接到joiner组件 需要对joiner组件的input sort打对勾
36.行列转换
行转列 需要用分组组件 对需要专列的行进行筛选过滤到N个新字段,然后输出
列转行 需要用规范器组件 和f(x)组件 然后输出
37.SQ和joiner组件及union组件异同及使用条件
SQ只能关联同构数据源 可以关联两个以上
joiner可以关联异构数据源 每次只能关联两个表 如果需要关联N个表 需要N-1个组件
SQ只能合并同构数据源
union可以合并异构数据源
38.infa优化
抽取数据时之抽取需要字段,尽量减少输入输出端口
尽早过滤,尽早去重
尽量避免类型转换
优化设计,减少不必要组件的使用

这篇关于ETL考试当天学习总结:的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/790427

相关文章

Python中logging模块用法示例总结

《Python中logging模块用法示例总结》在Python中logging模块是一个强大的日志记录工具,它允许用户将程序运行期间产生的日志信息输出到控制台或者写入到文件中,:本文主要介绍Pyt... 目录前言一. 基本使用1. 五种日志等级2.  设置报告等级3. 自定义格式4. C语言风格的格式化方法

Spring 依赖注入与循环依赖总结

《Spring依赖注入与循环依赖总结》这篇文章给大家介绍Spring依赖注入与循环依赖总结篇,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录1. Spring 三级缓存解决循环依赖1. 创建UserService原始对象2. 将原始对象包装成工

MySQL中查询和展示LONGBLOB类型数据的技巧总结

《MySQL中查询和展示LONGBLOB类型数据的技巧总结》在MySQL中LONGBLOB是一种二进制大对象(BLOB)数据类型,用于存储大量的二进制数据,:本文主要介绍MySQL中查询和展示LO... 目录前言1. 查询 LONGBLOB 数据的大小2. 查询并展示 LONGBLOB 数据2.1 转换为十

Unity新手入门学习殿堂级知识详细讲解(图文)

《Unity新手入门学习殿堂级知识详细讲解(图文)》Unity是一款跨平台游戏引擎,支持2D/3D及VR/AR开发,核心功能模块包括图形、音频、物理等,通过可视化编辑器与脚本扩展实现开发,项目结构含A... 目录入门概述什么是 UnityUnity引擎基础认知编辑器核心操作Unity 编辑器项目模式分类工程

Python学习笔记之getattr和hasattr用法示例详解

《Python学习笔记之getattr和hasattr用法示例详解》在Python中,hasattr()、getattr()和setattr()是一组内置函数,用于对对象的属性进行操作和查询,这篇文章... 目录1.getattr用法详解1.1 基本作用1.2 示例1.3 原理2.hasattr用法详解2.

在Java中实现线程之间的数据共享的几种方式总结

《在Java中实现线程之间的数据共享的几种方式总结》在Java中实现线程间数据共享是并发编程的核心需求,但需要谨慎处理同步问题以避免竞态条件,本文通过代码示例给大家介绍了几种主要实现方式及其最佳实践,... 目录1. 共享变量与同步机制2. 轻量级通信机制3. 线程安全容器4. 线程局部变量(ThreadL

Spring Boot 与微服务入门实战详细总结

《SpringBoot与微服务入门实战详细总结》本文讲解SpringBoot框架的核心特性如快速构建、自动配置、零XML与微服务架构的定义、演进及优缺点,涵盖开发环境准备和HelloWorld实战... 目录一、Spring Boot 核心概述二、微服务架构详解1. 微服务的定义与演进2. 微服务的优缺点三

Java通过驱动包(jar包)连接MySQL数据库的步骤总结及验证方式

《Java通过驱动包(jar包)连接MySQL数据库的步骤总结及验证方式》本文详细介绍如何使用Java通过JDBC连接MySQL数据库,包括下载驱动、配置Eclipse环境、检测数据库连接等关键步骤,... 目录一、下载驱动包二、放jar包三、检测数据库连接JavaJava 如何使用 JDBC 连接 mys

JavaSE正则表达式用法总结大全

《JavaSE正则表达式用法总结大全》正则表达式就是由一些特定的字符组成,代表的是一个规则,:本文主要介绍JavaSE正则表达式用法的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下... 目录常用的正则表达式匹配符正则表China编程达式常用的类Pattern类Matcher类PatternSynta

SQL中JOIN操作的条件使用总结与实践

《SQL中JOIN操作的条件使用总结与实践》在SQL查询中,JOIN操作是多表关联的核心工具,本文将从原理,场景和最佳实践三个方面总结JOIN条件的使用规则,希望可以帮助开发者精准控制查询逻辑... 目录一、ON与WHERE的本质区别二、场景化条件使用规则三、最佳实践建议1.优先使用ON条件2.WHERE用