Kettle:千亿数据仓库整合大数据平台[不学白不学]!!!保证你收益匪浅

本文主要是介绍Kettle:千亿数据仓库整合大数据平台[不学白不学]!!!保证你收益匪浅,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Kettle整合大数据平台

Kettle整合Hadoop:

  • Hadoop环境准备
  1. 查看hadoop的文件系统
  • 通过浏览器访问
    http://node1:50070/
  • 通过终端访问
    hadoop fs -ls / # 查看文件
  1. 在hadoop文件系统中创建/hadoop/test目录
hadoop fs -mkdir -p /hadoop/test  
  1. 在本地创建1.txt
    vim 1.txt
id,name
1,itheima
2,itcast
  1. 上传1.txt到hadoop文件系统的/hadoop/test目录
hadoop fs -put 1.txt /hadoop/test

kettle与hahoop环境整合

1、确保Hadoop的环境变量设置好HADOOP_USER_NAME为root

2、从hadoop下载核心配置文件

sz /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/hdfs-site.xml
sz /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/core-site.xml

文件会被下载到windows的下载目录

3、把hadoop核心配置文件放入kettle目录

data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh514

在这里插入图片描述
4、修改 data-integration\plugins\pentaho-big-data-plugin\plugin.properties文件

  • 修改plugin.properties
active.hadoop.configuration=cdh514

5、 创建Hadoop clusters

在这里插入图片描述
在这里插入图片描述

Hadoop file input组件

Kettle在Big data分类中提供了一个Hadoop file input 组件用来从hdfs文件系统中读取数据。
在这里插入图片描述
需求:

  • 从Hadoop文件系统读取/hadoop/test/1.txt文件,把数据输入到Excel中。
    实现步骤:
    1、拖入以下组件

在这里插入图片描述
2、配置Hadoop File Input组件
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Hadoop file output组件

Kettle在Big data分类中提供了一个Hadoop file output 组件用来向hdfs文件系统中保存数据
在这里插入图片描述
需求:

  • 读取 user.json 把数据写入到hdfs文件系统的的/hadoop/test/2.txt中。

实现步骤:
1、拖入以下组件
在这里插入图片描述
2、配置 JSON 输入组件
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
3、配置Hadoop file output组件
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Kettle整合Hive

启动hive:
hive --service hiveserver2 &
hive --service metastore &

初始化数据

  1. 连接hive
    在这里插入图片描述

  2. 创建并切换数据库

create database test;
use test;
  1. 创建表
create table a(a int,b int
)
row format delimited fields terminated by ',' stored as TEXTFILE;
show tables;
  1. 创建数据文件
vim a.txt
1,11
2,22
3,33
  1. 从文件加载数据到表
load data local inpath '/root/a.txt' into table a;
  1. 查询表
select * from a;

kettle与Hive整合

1、从虚拟机下载Hadoop的jar包

sz /export/servers/hadoop-2.6.0-cdh5.14.0/share/hadoop/common/hadoop-common-2.6.0-cdh5.14.0.jar

2、把jar包放置在\data-integration\lib目录下

3、重启kettle,重新加载生效

从hive中读取数据

  • hive数据库是通过jdbc来进行连接,可以通过表输入控件来获取数据。
    需求:
  • 从hive数据库的test库的a表中获取数据,并把数据保存到Excel中。
    实现步骤:
    1、设计一下kettle组件结构
    在这里插入图片描述
    2、配置表输入组件
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

把数据保存到hive数据库

hive数据库是通过jdbc来进行连接,可以通过表输出控件来保存数据。
需求:

  • 从Excel中读取数据,把数据保存在hive数据库的test数据库的a表。
    实现步骤:

1、设计如下kettle组件结构
在这里插入图片描述
2、配置 Excel输入组件

在这里插入图片描述
在这里插入图片描述
2、配置表输出组件
在这里插入图片描述
在这里插入图片描述
验证:
在这里插入图片描述

执行Hive的HiveSQL语句:

Kettle中可以执行Hive的HiveSQL语句,使用作业的SQL脚本。
需求:

  • 聚合查询a表表中a字段大于1的数据,同时建立一个新表new_a保存查询数据。
    实现步骤:

1、设计如下作业组件结构在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

这篇关于Kettle:千亿数据仓库整合大数据平台[不学白不学]!!!保证你收益匪浅的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/589449

相关文章

MySQL快速复制一张表的四种核心方法(包括表结构和数据)

《MySQL快速复制一张表的四种核心方法(包括表结构和数据)》本文详细介绍了四种复制MySQL表(结构+数据)的方法,并对每种方法进行了对比分析,适用于不同场景和数据量的复制需求,特别是针对超大表(1... 目录一、mysql 复制表(结构+数据)的 4 种核心方法(面试结构化回答)方法 1:CREATE

详解C++ 存储二进制数据容器的几种方法

《详解C++存储二进制数据容器的几种方法》本文主要介绍了详解C++存储二进制数据容器,包括std::vector、std::array、std::string、std::bitset和std::ve... 目录1.std::vector<uint8_t>(最常用)特点:适用场景:示例:2.std::arra

SpringBoot项目整合Netty启动失败的常见错误总结

《SpringBoot项目整合Netty启动失败的常见错误总结》本文总结了SpringBoot集成Netty时常见的8类问题及解决方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参... 目录一、端口冲突问题1. Tomcat与Netty端口冲突二、主线程被阻塞问题1. Netty启动阻

SpringBoot+Vue3整合SSE实现实时消息推送功能

《SpringBoot+Vue3整合SSE实现实时消息推送功能》在日常开发中,我们经常需要实现实时消息推送的功能,这篇文章将基于SpringBoot和Vue3来简单实现一个入门级的例子,下面小编就和大... 目录前言先大概介绍下SSE后端实现(SpringBoot)前端实现(vue3)1. 数据类型定义2.

SpringBoot整合Kafka启动失败的常见错误问题总结(推荐)

《SpringBoot整合Kafka启动失败的常见错误问题总结(推荐)》本文总结了SpringBoot项目整合Kafka启动失败的常见错误,包括Kafka服务器连接问题、序列化配置错误、依赖配置问题、... 目录一、Kafka服务器连接问题1. Kafka服务器无法连接2. 开发环境与生产环境网络不通二、序

SpringBoot整合Apache Spark实现一个简单的数据分析功能

《SpringBoot整合ApacheSpark实现一个简单的数据分析功能》ApacheSpark是一个开源的大数据处理框架,它提供了丰富的功能和API,用于分布式数据处理、数据分析和机器学习等任务... 目录第一步、添加android依赖第二步、编写配置类第三步、编写控制类启动项目并测试总结ApacheS

MySQL中的DELETE删除数据及注意事项

《MySQL中的DELETE删除数据及注意事项》MySQL的DELETE语句是数据库操作中不可或缺的一部分,通过合理使用索引、批量删除、避免全表删除、使用TRUNCATE、使用ORDERBY和LIMI... 目录1. 基本语法单表删除2. 高级用法使用子查询删除删除多表3. 性能优化策略使用索引批量删除避免

MySQL 数据库进阶之SQL 数据操作与子查询操作大全

《MySQL数据库进阶之SQL数据操作与子查询操作大全》本文详细介绍了SQL中的子查询、数据添加(INSERT)、数据修改(UPDATE)和数据删除(DELETE、TRUNCATE、DROP)操作... 目录一、子查询:嵌套在查询中的查询1.1 子查询的基本语法1.2 子查询的实战示例二、数据添加:INSE

Linux服务器数据盘移除并重新挂载的全过程

《Linux服务器数据盘移除并重新挂载的全过程》:本文主要介绍在Linux服务器上移除并重新挂载数据盘的整个过程,分为三大步:卸载文件系统、分离磁盘和重新挂载,每一步都有详细的步骤和注意事项,确保... 目录引言第一步:卸载文件系统第二步:分离磁盘第三步:重新挂载引言在 linux 服务器上移除并重新挂p

使用MyBatis TypeHandler实现数据加密与解密的具体方案

《使用MyBatisTypeHandler实现数据加密与解密的具体方案》在我们日常的开发工作中,经常会遇到一些敏感数据需要存储,比如用户的手机号、身份证号、银行卡号等,为了保障数据安全,我们通常会对... 目录1. 核心概念:什么是 TypeHandler?2. 实战场景3. 代码实现步骤步骤 1:定义 E