MR案例:Left Outer Join

2024-05-03 13:18
文章标签 mr 案例 join left outer

本文主要是介绍MR案例:Left Outer Join,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

适用场景:适合两个大表连接操作
用法:Join操作在reduce task中完成 【默认的join方式】,map端按照连接字段进行hash,reduce 端完成连接操作

代码实现:

package join.map;import java.io.IOException;
import java.util.ArrayList;
import java.util.List;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.VLongWritable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class JoinOn {public static void main(String[] args) throws Exception {//临时配置windows的环境变量System.setProperty("hadoop.home.dir", "D:\\workspace\\hadoop-2.2.0");Configuration conf = new Configuration();Job job = Job.getInstance(conf);job.setJarByClass(JoinOn.class);job.setMapperClass(JOMapper.class);job.setReducerClass(JOReducer.class);job.setMapOutputKeyClass(VLongWritable.class);job.setMapOutputValueClass(Text.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(Text.class);FileInputFormat.addInputPath(job, new Path(args[0]));FileOutputFormat.setOutputPath(job, new Path(args[1]));System.exit(job.waitForCompletion(true)? 0:1);}public static class JOMapper extends Mapper<LongWritable, Text, VLongWritable, Text>{@Overrideprotected void map(LongWritable key, Text value, Context context)throws IOException, InterruptedException {//获取当前分片所对应的文件名String name = ((FileSplit)context.getInputSplit()).getPath().getName();String[] splited = value.toString().split("\t");if(name.endsWith("sales")){//sales表//<key,value> --> <id, things+':'+name+'\t'+id>context.write(new VLongWritable(Long.parseLong(splited[1])), new Text(name+":"+value.toString()));}else if(name.endsWith("things")) {//<key,value> --> <id, sales+':'+id+'\t'+name>context.write(new VLongWritable(Long.parseLong(splited[0])), new Text(name+":"+value.toString()));}    }}public static class JOReducer extends Reducer<VLongWritable, Text, Text, Text>{@Overrideprotected void reduce(VLongWritable key, Iterable<Text> v2s, Context context)throws IOException, InterruptedException {//分别存储sales和things两表的nameList<String> sales=new ArrayList<String>();List<String> things=new ArrayList<String>();for(Text text : v2s){String[] splited = text.toString().split(":");//sales表中的数据if(splited[0].endsWith("sales")){//加入集合sales.add(splited[1]);}//things表中数据else if(splited[0].endsWith("things")){things.add(splited[1]);}}//笛卡尔积/*** 左外连接:只要求左表中有数据即可*/if(sales.size()!=0 /*&& things.size()!=0*/){for(String sale : sales){//如果右表中没有数据,则使用 NULL 代替if(things.size()==0){context.write(new Text(sale), new Text("NULL"+"\t"+"NILL"));}else {//如果右表中有数据,则直接输出for(String thing : things){context.write(new Text(sale), new Text(thing));}}}                    }}}
}

MR过程分解

input

//sales.txt
Joe     2
Hank    4
Ali     0
Eve     3
Hank    2
//things.txt
2       Tie
4       Coat
3       Hat
1       Scarf

map

key -> value
2 -> sales:Joe     2
4 -> sales:Hank    4
0 -> sales:Ali     0
3 -> sales:Eve     3
2 -> sales:Hank    2key -> value
2 -> things:2       Tie
4 -> things:4       Coat
3 -> things:3       Hat
1 -> things:1       Scarf

shuffle

2   [sales:Joe     2;sales:Hank    2;things:2       Tie]
4   [sales:Hank    4;things:4       Coat]
0   [sales:Ali     0;]
3   [sales:Eve     3;things:3       Hat]

reduce

2   salesList:  Joe     2;Hank    2;    ---->   Joe     2   2   Tie         thingsList: 2       Tie;                    Hank    2   2   Tie
4   salesList:  Hank    4;              ---->   Hank    4   4   Coat            thingsList: 4       Coat; 
0   salesList:  Ali     0;              ---->   Ali     0   NULL NULL
3   salesList:  Eve     3;              ---->   Eve     3   3   Hat         thingsList: 3      Hat;

output

//sales.txt join things.txt
Joe     2   2   Tie  
Hank    2   2   Tie
Hank    4   4   Coat 
Ali     0   NULL NULL
Eve     3   3   Hat   

参考文章:http://www.cnblogs.com/skyl/p/4737347.html

这篇关于MR案例:Left Outer Join的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/956839

相关文章

Spring Boot 整合 SSE(Server-Sent Events)实战案例(全网最全)

《SpringBoot整合SSE(Server-SentEvents)实战案例(全网最全)》本文通过实战案例讲解SpringBoot整合SSE技术,涵盖实现原理、代码配置、异常处理及前端交互,... 目录Spring Boot 整合 SSE(Server-Sent Events)1、简述SSE与其他技术的对

MySQL 临时表与复制表操作全流程案例

《MySQL临时表与复制表操作全流程案例》本文介绍MySQL临时表与复制表的区别与使用,涵盖生命周期、存储机制、操作限制、创建方法及常见问题,本文结合实例代码给大家介绍的非常详细,感兴趣的朋友跟随小... 目录一、mysql 临时表(一)核心特性拓展(二)操作全流程案例1. 复杂查询中的临时表应用2. 临时

MySQL 数据库表与查询操作实战案例

《MySQL数据库表与查询操作实战案例》本文将通过实际案例,详细介绍MySQL中数据库表的设计、数据插入以及常用的查询操作,帮助初学者快速上手,感兴趣的朋友跟随小编一起看看吧... 目录mysql 数据库表操作与查询实战案例项目一:产品相关数据库设计与创建一、数据库及表结构设计二、数据库与表的创建项目二:员

C#中的Drawing 类案例详解

《C#中的Drawing类案例详解》文章解析WPF与WinForms的Drawing类差异,涵盖命名空间、继承链、常用类及应用场景,通过案例展示如何创建带阴影圆角矩形按钮,强调WPF的轻量、可动画特... 目录一、Drawing 是什么?二、典型用法三、案例:画一个“带阴影的圆角矩形按钮”四、WinForm

setsid 命令工作原理和使用案例介绍

《setsid命令工作原理和使用案例介绍》setsid命令在Linux中创建独立会话,使进程脱离终端运行,适用于守护进程和后台任务,通过重定向输出和确保权限,可有效管理长时间运行的进程,本文给大家介... 目录setsid 命令介绍和使用案例基本介绍基本语法主要特点命令参数使用案例1. 在后台运行命令2.

Java Thread中join方法使用举例详解

《JavaThread中join方法使用举例详解》JavaThread中join()方法主要是让调用改方法的thread完成run方法里面的东西后,在执行join()方法后面的代码,这篇文章主要介绍... 目录前言1.join()方法的定义和作用2.join()方法的三个重载版本3.join()方法的工作原

RabbitMQ消费端单线程与多线程案例讲解

《RabbitMQ消费端单线程与多线程案例讲解》文章解析RabbitMQ消费端单线程与多线程处理机制,说明concurrency控制消费者数量,max-concurrency控制最大线程数,prefe... 目录 一、基础概念详细解释:举个例子:✅ 单消费者 + 单线程消费❌ 单消费者 + 多线程消费❌ 多

MySql基本查询之表的增删查改+聚合函数案例详解

《MySql基本查询之表的增删查改+聚合函数案例详解》本文详解SQL的CURD操作INSERT用于数据插入(单行/多行及冲突处理),SELECT实现数据检索(列选择、条件过滤、排序分页),UPDATE... 目录一、Create1.1 单行数据 + 全列插入1.2 多行数据 + 指定列插入1.3 插入否则更

Python通用唯一标识符模块uuid使用案例详解

《Python通用唯一标识符模块uuid使用案例详解》Pythonuuid模块用于生成128位全局唯一标识符,支持UUID1-5版本,适用于分布式系统、数据库主键等场景,需注意隐私、碰撞概率及存储优... 目录简介核心功能1. UUID版本2. UUID属性3. 命名空间使用场景1. 生成唯一标识符2. 数

PostgreSQL的扩展dict_int应用案例解析

《PostgreSQL的扩展dict_int应用案例解析》dict_int扩展为PostgreSQL提供了专业的整数文本处理能力,特别适合需要精确处理数字内容的搜索场景,本文给大家介绍PostgreS... 目录PostgreSQL的扩展dict_int一、扩展概述二、核心功能三、安装与启用四、字典配置方法