Kettle:千亿数据仓库整合大数据平台[不学白不学]!!!保证你收益匪浅

本文主要是介绍Kettle:千亿数据仓库整合大数据平台[不学白不学]!!!保证你收益匪浅,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Kettle整合大数据平台

Kettle整合Hadoop:

  • Hadoop环境准备
  1. 查看hadoop的文件系统
  • 通过浏览器访问
    http://node1:50070/
  • 通过终端访问
    hadoop fs -ls / # 查看文件
  1. 在hadoop文件系统中创建/hadoop/test目录
hadoop fs -mkdir -p /hadoop/test  
  1. 在本地创建1.txt
    vim 1.txt
id,name
1,itheima
2,itcast
  1. 上传1.txt到hadoop文件系统的/hadoop/test目录
hadoop fs -put 1.txt /hadoop/test

kettle与hahoop环境整合

1、确保Hadoop的环境变量设置好HADOOP_USER_NAME为root

2、从hadoop下载核心配置文件

sz /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/hdfs-site.xml
sz /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/core-site.xml

文件会被下载到windows的下载目录

3、把hadoop核心配置文件放入kettle目录

data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh514

在这里插入图片描述
4、修改 data-integration\plugins\pentaho-big-data-plugin\plugin.properties文件

  • 修改plugin.properties
active.hadoop.configuration=cdh514

5、 创建Hadoop clusters

在这里插入图片描述
在这里插入图片描述

Hadoop file input组件

Kettle在Big data分类中提供了一个Hadoop file input 组件用来从hdfs文件系统中读取数据。
在这里插入图片描述
需求:

  • 从Hadoop文件系统读取/hadoop/test/1.txt文件,把数据输入到Excel中。
    实现步骤:
    1、拖入以下组件

在这里插入图片描述
2、配置Hadoop File Input组件
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Hadoop file output组件

Kettle在Big data分类中提供了一个Hadoop file output 组件用来向hdfs文件系统中保存数据
在这里插入图片描述
需求:

  • 读取 user.json 把数据写入到hdfs文件系统的的/hadoop/test/2.txt中。

实现步骤:
1、拖入以下组件
在这里插入图片描述
2、配置 JSON 输入组件
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
3、配置Hadoop file output组件
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Kettle整合Hive

启动hive:
hive --service hiveserver2 &
hive --service metastore &

初始化数据

  1. 连接hive
    在这里插入图片描述

  2. 创建并切换数据库

create database test;
use test;
  1. 创建表
create table a(a int,b int
)
row format delimited fields terminated by ',' stored as TEXTFILE;
show tables;
  1. 创建数据文件
vim a.txt
1,11
2,22
3,33
  1. 从文件加载数据到表
load data local inpath '/root/a.txt' into table a;
  1. 查询表
select * from a;

kettle与Hive整合

1、从虚拟机下载Hadoop的jar包

sz /export/servers/hadoop-2.6.0-cdh5.14.0/share/hadoop/common/hadoop-common-2.6.0-cdh5.14.0.jar

2、把jar包放置在\data-integration\lib目录下

3、重启kettle,重新加载生效

从hive中读取数据

  • hive数据库是通过jdbc来进行连接,可以通过表输入控件来获取数据。
    需求:
  • 从hive数据库的test库的a表中获取数据,并把数据保存到Excel中。
    实现步骤:
    1、设计一下kettle组件结构
    在这里插入图片描述
    2、配置表输入组件
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

把数据保存到hive数据库

hive数据库是通过jdbc来进行连接,可以通过表输出控件来保存数据。
需求:

  • 从Excel中读取数据,把数据保存在hive数据库的test数据库的a表。
    实现步骤:

1、设计如下kettle组件结构
在这里插入图片描述
2、配置 Excel输入组件

在这里插入图片描述
在这里插入图片描述
2、配置表输出组件
在这里插入图片描述
在这里插入图片描述
验证:
在这里插入图片描述

执行Hive的HiveSQL语句:

Kettle中可以执行Hive的HiveSQL语句,使用作业的SQL脚本。
需求:

  • 聚合查询a表表中a字段大于1的数据,同时建立一个新表new_a保存查询数据。
    实现步骤:

1、设计如下作业组件结构在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

这篇关于Kettle:千亿数据仓库整合大数据平台[不学白不学]!!!保证你收益匪浅的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/589449

相关文章

springboot项目中整合高德地图的实践

《springboot项目中整合高德地图的实践》:本文主要介绍springboot项目中整合高德地图的实践,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一:高德开放平台的使用二:创建数据库(我是用的是mysql)三:Springboot所需的依赖(根据你的需求再

SpringBoot整合Flowable实现工作流的详细流程

《SpringBoot整合Flowable实现工作流的详细流程》Flowable是一个使用Java编写的轻量级业务流程引擎,Flowable流程引擎可用于部署BPMN2.0流程定义,创建这些流程定义的... 目录1、流程引擎介绍2、创建项目3、画流程图4、开发接口4.1 Java 类梳理4.2 查看流程图4

SQL Server修改数据库名及物理数据文件名操作步骤

《SQLServer修改数据库名及物理数据文件名操作步骤》在SQLServer中重命名数据库是一个常见的操作,但需要确保用户具有足够的权限来执行此操作,:本文主要介绍SQLServer修改数据... 目录一、背景介绍二、操作步骤2.1 设置为单用户模式(断开连接)2.2 修改数据库名称2.3 查找逻辑文件名

canal实现mysql数据同步的详细过程

《canal实现mysql数据同步的详细过程》:本文主要介绍canal实现mysql数据同步的详细过程,本文通过实例图文相结合给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的... 目录1、canal下载2、mysql同步用户创建和授权3、canal admin安装和启动4、canal

Springboot整合Redis主从实践

《Springboot整合Redis主从实践》:本文主要介绍Springboot整合Redis主从的实例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录前言原配置现配置测试LettuceConnectionFactory.setShareNativeConnect

使用SpringBoot整合Sharding Sphere实现数据脱敏的示例

《使用SpringBoot整合ShardingSphere实现数据脱敏的示例》ApacheShardingSphere数据脱敏模块,通过SQL拦截与改写实现敏感信息加密存储,解决手动处理繁琐及系统改... 目录痛点一:痛点二:脱敏配置Quick Start——Spring 显示配置:1.引入依赖2.创建脱敏

SpringBoot整合Apache Flink的详细指南

《SpringBoot整合ApacheFlink的详细指南》这篇文章主要为大家详细介绍了SpringBoot整合ApacheFlink的详细过程,涵盖环境准备,依赖配置,代码实现及运行步骤,感兴趣的... 目录1. 背景与目标2. 环境准备2.1 开发工具2.2 技术版本3. 创建 Spring Boot

Java中JSON格式反序列化为Map且保证存取顺序一致的问题

《Java中JSON格式反序列化为Map且保证存取顺序一致的问题》:本文主要介绍Java中JSON格式反序列化为Map且保证存取顺序一致的问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未... 目录背景问题解决方法总结背景做项目涉及两个微服务之间传数据时,需要提供方将Map类型的数据序列化为co

Spring Boot 整合 Apache Flink 的详细过程

《SpringBoot整合ApacheFlink的详细过程》ApacheFlink是一个高性能的分布式流处理框架,而SpringBoot提供了快速构建企业级应用的能力,下面给大家介绍Spri... 目录Spring Boot 整合 Apache Flink 教程一、背景与目标二、环境准备三、创建项目 & 添

详解如何使用Python构建从数据到文档的自动化工作流

《详解如何使用Python构建从数据到文档的自动化工作流》这篇文章将通过真实工作场景拆解,为大家展示如何用Python构建自动化工作流,让工具代替人力完成这些数字苦力活,感兴趣的小伙伴可以跟随小编一起... 目录一、Excel处理:从数据搬运工到智能分析师二、PDF处理:文档工厂的智能生产线三、邮件自动化: