2.6.3 hadoop体系之离线计算-Azkaban工作流调度系统-Azkaban多例实战

本文主要是介绍2.6.3 hadoop体系之离线计算-Azkaban工作流调度系统-Azkaban多例实战,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

1.Command 类型单一 Job 示例

1.1 创建job文件

1.2 将job资源文件打包成zip文件

1.3 在web上创建项目并且上传压缩包

1.4 启动执行job

2.Command 类型多 Job 示例(有依赖关系)

2.1 创建有依赖关系的多个job描述

2.2 将所有job文件,打包到一个zip包中

2.3 在azkaban的web管理界面创建工程并且上传zip包

2.4 启动工作流flow

3.HDFS 操作任务

3.1 创建job描述文件fs.job

3.2 将job资源文件打包成zip文件

3.3 通过azkaban的web管理平台创建project并上传job压缩包,并且启动执行该job

4.MapReduce 任务

4.1 创建job描述文件,及mr程序jar包(示例中直接使用hadoop自带的example jar)

4.2 将所有job资源文件打到一个zip包中

4.3 在azkaban中web管理界面中创建工程并且上传zip包,并且启动job

5.Hive脚本任务

5.1 创建job描述文件和hive脚本

5.2 Job描述文件:hive.job

5.3 将所有job资源文件打包到一个zip中

5.4 在azkaban的web管理界面创建工程并上传zip包,并且启动job任务

6.Azkaban 的定时任务


Azkaba内置的任务类型支持command、java

1.Command 类型单一 Job 示例

1.1 创建job文件

创建文本文件,更改名称为mycommand.job 注意后缀.txt一定不要带上,保存为格式为UFT-8 without bom 内容如下:

type=command
command=echo 'hello world'

1.2 将job资源文件打包成zip文件

1.3 在web上创建项目并且上传压缩包

通过azkaban的web管理平台创建project并上传job压缩包

首先创建project

上传zip包

1.4 启动执行job

2.Command 类型多 Job 示例(有依赖关系)

2.1 创建有依赖关系的多个job描述

2.2 将所有job文件,打包到一个zip包中

2.3 在azkaban的web管理界面创建工程并且上传zip包

2.4 启动工作流flow

3.HDFS 操作任务

3.1 创建job描述文件fs.job

type=command
command=/export/servers/hadoop‐3.1.1/bin/hdfs dfs ‐mkdir /azkaban

3.2 将job资源文件打包成zip文件

3.3 通过azkaban的web管理平台创建project并上传job压缩包,并且启动执行该job

4.MapReduce 任务

MR 任务依然可以使用command的job类型来执行

4.1 创建job描述文件,及mr程序jar包(示例中直接使用hadoop自带的example jar)

type=command
command=/export/servers/hadoop‐3.1.1/bin/hadoop jar hadoop‐mapreduce‐examples‐3.1.1.jar pi 3 5

4.2 将所有job资源文件打到一个zip包中

4.3 在azkaban中web管理界面中创建工程并且上传zip包,并且启动job

5.Hive脚本任务

5.1 创建job描述文件和hive脚本

Hive脚本: hive.sql

create database if not exists azhive;
use azhive;
create table if not exists aztest(id string,name string) row format
delimited fields terminated by '\t';

5.2 Job描述文件:hive.job

type=command
command=/export/servers/apache‐hive‐3.1.1‐bin ‐f 'hive.sql'

5.3 将所有job资源文件打包到一个zip中

5.4 在azkaban的web管理界面创建工程并上传zip包,并且启动job任务

6.Azkaban 的定时任务

使用azkaban的scheduler功能可以实现对我们的作业任务进行定时调度功能

这篇关于2.6.3 hadoop体系之离线计算-Azkaban工作流调度系统-Azkaban多例实战的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/754505

相关文章

Python文本相似度计算的方法大全

《Python文本相似度计算的方法大全》文本相似度是指两个文本在内容、结构或语义上的相近程度,通常用0到1之间的数值表示,0表示完全不同,1表示完全相同,本文将深入解析多种文本相似度计算方法,帮助您选... 目录前言什么是文本相似度?1. Levenshtein 距离(编辑距离)核心公式实现示例2. Jac

Python中的filter() 函数的工作原理及应用技巧

《Python中的filter()函数的工作原理及应用技巧》Python的filter()函数用于筛选序列元素,返回迭代器,适合函数式编程,相比列表推导式,内存更优,尤其适用于大数据集,结合lamb... 目录前言一、基本概念基本语法二、使用方式1. 使用 lambda 函数2. 使用普通函数3. 使用 N

Spring Boot 整合 SSE(Server-Sent Events)实战案例(全网最全)

《SpringBoot整合SSE(Server-SentEvents)实战案例(全网最全)》本文通过实战案例讲解SpringBoot整合SSE技术,涵盖实现原理、代码配置、异常处理及前端交互,... 目录Spring Boot 整合 SSE(Server-Sent Events)1、简述SSE与其他技术的对

MyBatis-Plus 与 Spring Boot 集成原理实战示例

《MyBatis-Plus与SpringBoot集成原理实战示例》MyBatis-Plus通过自动配置与核心组件集成SpringBoot实现零配置,提供分页、逻辑删除等插件化功能,增强MyBa... 目录 一、MyBATis-Plus 简介 二、集成方式(Spring Boot)1. 引入依赖 三、核心机制

MySQL 数据库表操作完全指南:创建、读取、更新与删除实战

《MySQL数据库表操作完全指南:创建、读取、更新与删除实战》本文系统讲解MySQL表的增删查改(CURD)操作,涵盖创建、更新、查询、删除及插入查询结果,也是贯穿各类项目开发全流程的基础数据交互原... 目录mysql系列前言一、Create(创建)并插入数据1.1 单行数据 + 全列插入1.2 多行数据

MySQL 数据库表与查询操作实战案例

《MySQL数据库表与查询操作实战案例》本文将通过实际案例,详细介绍MySQL中数据库表的设计、数据插入以及常用的查询操作,帮助初学者快速上手,感兴趣的朋友跟随小编一起看看吧... 目录mysql 数据库表操作与查询实战案例项目一:产品相关数据库设计与创建一、数据库及表结构设计二、数据库与表的创建项目二:员

从基础到高阶详解Python多态实战应用指南

《从基础到高阶详解Python多态实战应用指南》这篇文章主要从基础到高阶为大家详细介绍Python中多态的相关应用与技巧,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、多态的本质:python的“鸭子类型”哲学二、多态的三大实战场景场景1:数据处理管道——统一处理不同数据格式

Linux查询服务器系统版本号的多种方法

《Linux查询服务器系统版本号的多种方法》在Linux系统管理和维护工作中,了解当前操作系统的版本信息是最基础也是最重要的操作之一,系统版本不仅关系到软件兼容性、安全更新策略,还直接影响到故障排查和... 目录一、引言:系统版本查询的重要性二、基础命令解析:cat /etc/Centos-release详

Python中经纬度距离计算的实现方式

《Python中经纬度距离计算的实现方式》文章介绍Python中计算经纬度距离的方法及中国加密坐标系转换工具,主要方法包括geopy(Vincenty/Karney)、Haversine、pyproj... 目录一、基本方法1. 使用geopy库(推荐)2. 手动实现 Haversine 公式3. 使用py

Java慢查询排查与性能调优完整实战指南

《Java慢查询排查与性能调优完整实战指南》Java调优是一个广泛的话题,它涵盖了代码优化、内存管理、并发处理等多个方面,:本文主要介绍Java慢查询排查与性能调优的相关资料,文中通过代码介绍的非... 目录1. 事故全景:从告警到定位1.1 事故时间线1.2 关键指标异常1.3 排查工具链2. 深度剖析: