本文主要是介绍Kettle8.2转换组件之唯一行(哈希值),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Kettle8.2转换组件之唯一行(HashSet)
- 一、相关说明
- 二、设计转换
- 三、转换配置
- 四、运行转换
- 五、查看结果
一、相关说明
- 需求说明:
从Excel读取数据,去除其中重复的字段,并把结果数据保存在数据库表中。 - 唯一行组件说明:
唯一行(哈希值)就是删除数据流重复的行。删除重复的行,并仅筛选作为该步骤输入数据的惟一行。它跟踪内存中的重复行,并且不需要排序输入来处理重复行。 - 注意: 唯一行(哈希值)和(排序记录+去除重复记录)效果一样的,但是实现的原理不同!唯一行(哈希值)执行的效率会高一些!由于内存分配问题,此步骤适用于非客户机机器。所需的内存和硬件数量将根据您正在处理的数据的大小而变化。另外,您也可以将此步骤与Spark处理引擎一起使用,以帮助克服内存约束问题。
二、设计转换
- 输入:Excel输入
- 转换: 唯一行(哈希值)
- 输出:表输出
三、转换配置
-
Step1:Excel输入组件配置
- 双击组件,写上步骤名称等
- 双击组件,写上步骤名称等
-
Step2:唯一行(哈希值)组件配置
- 双击打开,设置步骤名称
- 配置信息,如下
-
Step3:表输出组件配置
-
双击打开,设置步骤名称
-
配置信息,如下
-
保存转换
上述配置好后,点击确定即可!
-
四、运行转换
- 点击运行按钮,成功运行如下:
五、查看结果
-
数据库表中查看结果
-
Preview data中查看结果
-
执行流程
E:Excel读取源文件中的数据到行集中进行缓存
T:通过Hop读取行集中的数据流,通过经唯一行(哈希值)删除重复记录,将结果数据缓存再rowsets中
L:通过Hop读取上一个步骤传递过来的行集数据,并将其写出到数据库表中
这篇关于Kettle8.2转换组件之唯一行(哈希值)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!