ETL工具~Kettle调研

2024-08-22 09:32
文章标签 工具 kettle etl 调研

本文主要是介绍ETL工具~Kettle调研,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

ETL工具~Kettle调研 2017.2
Kettle
kettle是其中Pentaho默认的ETL工具,下图为Pentaho的使用情况

clipboard.png-298.8kB

什么是ETL

抽取(Extract):需要连接到不同的数据资源,以便为随后的步骤(转换、加载、分析、报表展示等)提供数据。数据抽取实际上是ETL解决方案的成功实施的一个主要障碍。
转换(Transform):任何对数据的处理过程都是转换。通常包括:
1、移动数据
2、根据规则验证数据
3、修改数据的内容或者数据结构
4、集成多个数据源的数据
5、根据处理后的数据计算派生值或者聚集值
加载(Load):将数据加载到目标系统的所有操作

能解决什么问题?

  1. 适用于将多个应用系统的大批量的、异构的数据进行整合,有强大的数据转换功能。
  2. 高效适配多种类型的异构数据库、文件和应用系统。
  3. 快速构建复杂数据大集中应用、无需编码。

适合什么场景?

异构数据库迁移,如将两个SQL Server中的业务数据分别依照特定的逻辑迁移到三个Oracle数据库中。
Kettle通过Webservice获取天气信息 http://blog.itpub.net/10009036/viewspace-1398948/
kettle学习:JsonInput使用 http://blog.csdn.net/jiesa/article/details/50098601
开源ETL工具kettle系列之增量更新设计http://blog.csdn.net/aiynmimi/article/details/52150318
用kettle向hdfs复制文件http://www.cnblogs.com/allan00/p/3838256.html
KETTLE访问HIVE表数据https://ask.hellobi.com/blog/hql15/3450

Kettle的优点?

  1. 插件架构扩展性好
    Kettle 体系架构http://blog.csdn.net/romaticjun2011/article/details/40680483
  2. 流程式设计方便易用
  3. 全面的数据访问支持(支持多个数据库, 如果非默认支持,还可以通过插件扩展)
  4. 支持多平台
  5. 高效稳定:
    1)每个步骤一个线程或者一个步骤分多个线程处理
    2)集群,把数据分散在多个机器中,在每个机器中作运算再汇总
  6. 商业、社区支持
  7. 多种方式应用集成:

1) 把Kettle集成到应用中,通过调用Kettle的API来调用一个作业
2) 把自己写的jar包集成到Kettle里面,通过Kettle的javascript来调用自己编写的class
3) 通过向web页面提交参数,执行一个kettle作业

是否跨平台?

底层依靠JVM,且为纯JAVA开发
Linux
1)进入到Kettle部署的路径
2)执行 chmod *.sh,将所有shell文件添加可执行权限
3)在Kettle路径下,如果要执行transformation,就运行./pan.sh -file=?.ktr -debug=debug -log=log.log 其中。-file说明你要运行的transformation文件所在的路径;-debug说明日志输出的级别;-log说明日志输出的路径
4)同理,对于job的执行,请将./pan.sh更换成./kitchen.sh,其他部分说明不变。
Windows
执行spoon.bat

是否开源,社区支持如何?

开源社区http://www.ukettle.org/forum.php

对分布式集群的针对性如何?

Kettle Execution on Storm http://wiki.pentaho.com/display/BAD/Kettle+Execution+on+Storm
Kettle on Spark http://wiki.pentaho.com/display/BAD/Kettle+on+Spark
Loading Data into HDFS http://wiki.pentaho.com/display/BAD/Loading+Data+into+HDFS
Kettle 集群(cluster)在多个服务器(windows、linux)上并发执行 http://blog.csdn.net/lixuemei504/article/details/38271145
KETTLE集群搭建 http://www.cnblogs.com/skyrim/p/5104557.html

是否可以进行自定义改进源代码?

kettle插件开发 https://wenku.baidu.com/view/33c46d1459eef8c75fbfb3b5.html?re=view
kettle调用第三方短信平台HTTP接口发送短信 http://www.ukettle.org/thread-1025-1-1.html

结构组成?

Spoon 一个基于swt开发的流式处理客户端,用户开发转换、任务、创建数据库、集群、分区等
Pan 独立的命令行程序,支持通过命令行实现界面的功能,如果转换启停,任务启停,状态查看等
Kitchen 一个独立的命令行程序,用于执行由Spoon编辑的作业.
Carte 一个轻量级的Web容器,用于建立专用、远程的ETL Server。


有什么缺点?

kettle性能及效率提升 http://blog.csdn.net/littlecaesar1234/article/details/18657093
kettle中做查询时,遇到大数据时怎么处理 http://www.myexception.cn/database/1294030.html

kettle处理数据的速度,相比较?

让kettle的执行速度飞起来 https://my.oschina.net/sucre/blog/398996

注意事项?

开源ETL工具kettle系列之常见问题 http://blog.csdn.net/zftang/article/details/6194124

81个开源大数据处理的工具 http://www.36dsj.com/archives/25042



😒 留下您对该文章的评价 😄


这篇关于ETL工具~Kettle调研的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/1095893

相关文章

使用Python和Tkinter实现html标签去除工具

《使用Python和Tkinter实现html标签去除工具》本文介绍用Python和Tkinter开发的HTML标签去除工具,支持去除HTML标签、转义实体并输出纯文本,提供图形界面操作及复制功能,需... 目录html 标签去除工具功能介绍创作过程1. 技术选型2. 核心实现逻辑3. 用户体验增强如何运行

Python使用Turtle实现精确计时工具

《Python使用Turtle实现精确计时工具》这篇文章主要为大家详细介绍了Python如何使用Turtle实现精确计时工具,文中的示例代码讲解详细,具有一定的借鉴价值,有需要的小伙伴可以参考一下... 目录功能特点使用方法程序架构设计代码详解窗口和画笔创建时间和状态显示更新计时器控制逻辑计时器重置功能事件

利用Python实现Excel文件智能合并工具

《利用Python实现Excel文件智能合并工具》有时候,我们需要将多个Excel文件按照特定顺序合并成一个文件,这样可以更方便地进行后续的数据处理和分析,下面我们看看如何使用Python实现Exce... 目录运行结果为什么需要这个工具技术实现工具的核心功能代码解析使用示例工具优化与扩展有时候,我们需要将

Python+PyQt5实现文件夹结构映射工具

《Python+PyQt5实现文件夹结构映射工具》在日常工作中,我们经常需要对文件夹结构进行复制和备份,本文将带来一款基于PyQt5开发的文件夹结构映射工具,感兴趣的小伙伴可以跟随小编一起学习一下... 目录概述功能亮点展示效果软件使用步骤代码解析1. 主窗口设计(FolderCopyApp)2. 拖拽路径

MySQL Workbench工具导出导入数据库方式

《MySQLWorkbench工具导出导入数据库方式》:本文主要介绍MySQLWorkbench工具导出导入数据库方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝... 目录mysql Workbench工具导出导入数据库第一步 www.chinasem.cn数据库导出第二步

Spring Validation中9个数据校验工具使用指南

《SpringValidation中9个数据校验工具使用指南》SpringValidation作为Spring生态系统的重要组成部分,提供了一套强大而灵活的数据校验机制,本文给大家介绍了Spring... 目录1. Bean Validation基础注解常用注解示例在控制器中应用2. 自定义约束验证器定义自

Linux系统调试之ltrace工具使用与调试过程

《Linux系统调试之ltrace工具使用与调试过程》:本文主要介绍Linux系统调试之ltrace工具使用与调试过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录一、ltrace 定义与作用二、ltrace 工作原理1. 劫持进程的 PLT/GOT 表2. 重定

使用Java编写一个字符脱敏工具类

《使用Java编写一个字符脱敏工具类》这篇文章主要为大家详细介绍了如何使用Java编写一个字符脱敏工具类,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1、字符脱敏工具类2、测试工具类3、测试结果1、字符脱敏工具类import lombok.extern.slf4j.Slf4j

使用Python开发Markdown兼容公式格式转换工具

《使用Python开发Markdown兼容公式格式转换工具》在技术写作中我们经常遇到公式格式问题,例如MathML无法显示,LaTeX格式错乱等,所以本文我们将使用Python开发Markdown兼容... 目录一、工具背景二、环境配置(Windows 10/11)1. 创建conda环境2. 获取XSLT

Python实现微信自动锁定工具

《Python实现微信自动锁定工具》在数字化办公时代,微信已成为职场沟通的重要工具,但临时离开时忘记锁屏可能导致敏感信息泄露,下面我们就来看看如何使用Python打造一个微信自动锁定工具吧... 目录引言:当微信隐私遇到自动化守护效果展示核心功能全景图技术亮点深度解析1. 无操作检测引擎2. 微信路径智能获