大数据学习---利用kettle进行表与表之间的数据同步

2023-12-30 10:48

本文主要是介绍大数据学习---利用kettle进行表与表之间的数据同步,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

利用kettle中的转换和作业将两个不同数据库中的不同数据表之间的数据进行同步

一、建立新的时间戳

在管理时间戳的数据库中的数据表中新加一条最新记录的时间戳日期,该时间戳日期应为最新插入新数据表的时间,(下图为数据库中的数据被更改【插入或更新】时数据库自动获取最新的系统时间)在这里插入图片描述

二、建立转换

1、表输入

将新建立的时间戳的时间获取,先进行数据库的连接(一般找_metadata的数据库,然后选中timestamp的时间戳字段)

SELECT  DATE_FORMAT(timestamp, '%Y-%m-%d %T.%f') tmstr
//这个是将时间戳的格式转换为%Y-%m-%d %T.%f。并用tmstr来指代
FROM a_timestamp
WHERE process_id=' '//写自建的数据的id名

2、表输入

将源数据库的数据全部输入进来,选择数据库中的所有字段

SELECTstcd
, tm
, drn
, DATE_FORMAT(timestamp, '%Y-%m-%d %T.%f') tmstr//是源数据库中的插入更新时间
FROM rainday
WHERE timestamp>=? and stcd!='' ORDER BY timestamp ASC
//将插入更新时间进行升序排序再选中大于时间戳的数据
limit 10000//限制数据个数

3、插入/更新

将主键用于查询的关键字,需要更新的字段除了插入更新的时间都需要更新

4、识别流的最后一行

结果字段名为result

5、Switch/Case

Switch字段为result 类型为Boolean
Case值为true,目标步骤为下一步的JavaScript代码

6、JavaScript代码

用于截取所需的字符串

var t
t=substr(tmstr,0,23

7、执行SQL语句

用来更新管理时间戳的数据库中的数据表中的时间戳记录

update a_timestamp set timestamp='?' 
where tablename='RAINDAY' and processID=' '

转换图请添加图片描述

作业图

请添加图片描述

这篇关于大数据学习---利用kettle进行表与表之间的数据同步的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/552600

相关文章

Linux线程同步/互斥过程详解

《Linux线程同步/互斥过程详解》文章讲解多线程并发访问导致竞态条件,需通过互斥锁、原子操作和条件变量实现线程安全与同步,分析死锁条件及避免方法,并介绍RAII封装技术提升资源管理效率... 目录01. 资源共享问题1.1 多线程并发访问1.2 临界区与临界资源1.3 锁的引入02. 多线程案例2.1 为

批量导入txt数据到的redis过程

《批量导入txt数据到的redis过程》用户通过将Redis命令逐行写入txt文件,利用管道模式运行客户端,成功执行批量删除以Product*匹配的Key操作,提高了数据清理效率... 目录批量导入txt数据到Redisjs把redis命令按一条 一行写到txt中管道命令运行redis客户端成功了批量删除k

SpringBoot多环境配置数据读取方式

《SpringBoot多环境配置数据读取方式》SpringBoot通过环境隔离机制,支持properties/yaml/yml多格式配置,结合@Value、Environment和@Configura... 目录一、多环境配置的核心思路二、3种配置文件格式详解2.1 properties格式(传统格式)1.

解决pandas无法读取csv文件数据的问题

《解决pandas无法读取csv文件数据的问题》本文讲述作者用Pandas读取CSV文件时因参数设置不当导致数据错位,通过调整delimiter和on_bad_lines参数最终解决问题,并强调正确参... 目录一、前言二、问题复现1. 问题2. 通过 on_bad_lines=‘warn’ 跳过异常数据3

Python进行JSON和Excel文件转换处理指南

《Python进行JSON和Excel文件转换处理指南》在数据交换与系统集成中,JSON与Excel是两种极为常见的数据格式,本文将介绍如何使用Python实现将JSON转换为格式化的Excel文件,... 目录将 jsON 导入为格式化 Excel将 Excel 导出为结构化 JSON处理嵌套 JSON:

C#监听txt文档获取新数据方式

《C#监听txt文档获取新数据方式》文章介绍通过监听txt文件获取最新数据,并实现开机自启动、禁用窗口关闭按钮、阻止Ctrl+C中断及防止程序退出等功能,代码整合于主函数中,供参考学习... 目录前言一、监听txt文档增加数据二、其他功能1. 设置开机自启动2. 禁止控制台窗口关闭按钮3. 阻止Ctrl +

java如何实现高并发场景下三级缓存的数据一致性

《java如何实现高并发场景下三级缓存的数据一致性》这篇文章主要为大家详细介绍了java如何实现高并发场景下三级缓存的数据一致性,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 下面代码是一个使用Java和Redisson实现的三级缓存服务,主要功能包括:1.缓存结构:本地缓存:使

在MySQL中实现冷热数据分离的方法及使用场景底层原理解析

《在MySQL中实现冷热数据分离的方法及使用场景底层原理解析》MySQL冷热数据分离通过分表/分区策略、数据归档和索引优化,将频繁访问的热数据与冷数据分开存储,提升查询效率并降低存储成本,适用于高并发... 目录实现冷热数据分离1. 分表策略2. 使用分区表3. 数据归档与迁移在mysql中实现冷热数据分

C#解析JSON数据全攻略指南

《C#解析JSON数据全攻略指南》这篇文章主要为大家详细介绍了使用C#解析JSON数据全攻略指南,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、为什么jsON是C#开发必修课?二、四步搞定网络JSON数据1. 获取数据 - HttpClient最佳实践2. 动态解析 - 快速

一文解密Python进行监控进程的黑科技

《一文解密Python进行监控进程的黑科技》在计算机系统管理和应用性能优化中,监控进程的CPU、内存和IO使用率是非常重要的任务,下面我们就来讲讲如何Python写一个简单使用的监控进程的工具吧... 目录准备工作监控CPU使用率监控内存使用率监控IO使用率小工具代码整合在计算机系统管理和应用性能优化中,监