MR案例:Left Outer Join

2024-05-03 13:18
文章标签 mr 案例 join left outer

本文主要是介绍MR案例:Left Outer Join,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

适用场景:适合两个大表连接操作
用法:Join操作在reduce task中完成 【默认的join方式】,map端按照连接字段进行hash,reduce 端完成连接操作

代码实现:

package join.map;import java.io.IOException;
import java.util.ArrayList;
import java.util.List;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.VLongWritable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class JoinOn {public static void main(String[] args) throws Exception {//临时配置windows的环境变量System.setProperty("hadoop.home.dir", "D:\\workspace\\hadoop-2.2.0");Configuration conf = new Configuration();Job job = Job.getInstance(conf);job.setJarByClass(JoinOn.class);job.setMapperClass(JOMapper.class);job.setReducerClass(JOReducer.class);job.setMapOutputKeyClass(VLongWritable.class);job.setMapOutputValueClass(Text.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(Text.class);FileInputFormat.addInputPath(job, new Path(args[0]));FileOutputFormat.setOutputPath(job, new Path(args[1]));System.exit(job.waitForCompletion(true)? 0:1);}public static class JOMapper extends Mapper<LongWritable, Text, VLongWritable, Text>{@Overrideprotected void map(LongWritable key, Text value, Context context)throws IOException, InterruptedException {//获取当前分片所对应的文件名String name = ((FileSplit)context.getInputSplit()).getPath().getName();String[] splited = value.toString().split("\t");if(name.endsWith("sales")){//sales表//<key,value> --> <id, things+':'+name+'\t'+id>context.write(new VLongWritable(Long.parseLong(splited[1])), new Text(name+":"+value.toString()));}else if(name.endsWith("things")) {//<key,value> --> <id, sales+':'+id+'\t'+name>context.write(new VLongWritable(Long.parseLong(splited[0])), new Text(name+":"+value.toString()));}    }}public static class JOReducer extends Reducer<VLongWritable, Text, Text, Text>{@Overrideprotected void reduce(VLongWritable key, Iterable<Text> v2s, Context context)throws IOException, InterruptedException {//分别存储sales和things两表的nameList<String> sales=new ArrayList<String>();List<String> things=new ArrayList<String>();for(Text text : v2s){String[] splited = text.toString().split(":");//sales表中的数据if(splited[0].endsWith("sales")){//加入集合sales.add(splited[1]);}//things表中数据else if(splited[0].endsWith("things")){things.add(splited[1]);}}//笛卡尔积/*** 左外连接:只要求左表中有数据即可*/if(sales.size()!=0 /*&& things.size()!=0*/){for(String sale : sales){//如果右表中没有数据,则使用 NULL 代替if(things.size()==0){context.write(new Text(sale), new Text("NULL"+"\t"+"NILL"));}else {//如果右表中有数据,则直接输出for(String thing : things){context.write(new Text(sale), new Text(thing));}}}                    }}}
}

MR过程分解

input

//sales.txt
Joe     2
Hank    4
Ali     0
Eve     3
Hank    2
//things.txt
2       Tie
4       Coat
3       Hat
1       Scarf

map

key -> value
2 -> sales:Joe     2
4 -> sales:Hank    4
0 -> sales:Ali     0
3 -> sales:Eve     3
2 -> sales:Hank    2key -> value
2 -> things:2       Tie
4 -> things:4       Coat
3 -> things:3       Hat
1 -> things:1       Scarf

shuffle

2   [sales:Joe     2;sales:Hank    2;things:2       Tie]
4   [sales:Hank    4;things:4       Coat]
0   [sales:Ali     0;]
3   [sales:Eve     3;things:3       Hat]

reduce

2   salesList:  Joe     2;Hank    2;    ---->   Joe     2   2   Tie         thingsList: 2       Tie;                    Hank    2   2   Tie
4   salesList:  Hank    4;              ---->   Hank    4   4   Coat            thingsList: 4       Coat; 
0   salesList:  Ali     0;              ---->   Ali     0   NULL NULL
3   salesList:  Eve     3;              ---->   Eve     3   3   Hat         thingsList: 3      Hat;

output

//sales.txt join things.txt
Joe     2   2   Tie  
Hank    2   2   Tie
Hank    4   4   Coat 
Ali     0   NULL NULL
Eve     3   3   Hat   

参考文章:http://www.cnblogs.com/skyl/p/4737347.html

这篇关于MR案例:Left Outer Join的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/956839

相关文章

MySQL 复合查询案例详解

《MySQL复合查询案例详解》:本文主要介绍MySQL复合查询案例详解,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录基本查询回顾多表笛卡尔积子查询与where子查询多行子查询多列子查询子查询与from总结合并查询(不太重要)union基本查询回顾查询

MySQL 多表连接操作方法(INNER JOIN、LEFT JOIN、RIGHT JOIN、FULL OUTER JOIN)

《MySQL多表连接操作方法(INNERJOIN、LEFTJOIN、RIGHTJOIN、FULLOUTERJOIN)》多表连接是一种将两个或多个表中的数据组合在一起的SQL操作,通过连接,... 目录一、 什么是多表连接?二、 mysql 支持的连接类型三、 多表连接的语法四、实战示例 数据准备五、连接的性

Java Stream流使用案例深入详解

《JavaStream流使用案例深入详解》:本文主要介绍JavaStream流使用案例详解,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录前言1. Lambda1.1 语法1.2 没参数只有一条语句或者多条语句1.3 一个参数只有一条语句或者多

MySQL 中的 JSON 查询案例详解

《MySQL中的JSON查询案例详解》:本文主要介绍MySQL的JSON查询的相关知识,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录mysql 的 jsON 路径格式基本结构路径组件详解特殊语法元素实际示例简单路径复杂路径简写操作符注意MySQL 的 J

Python Transformers库(NLP处理库)案例代码讲解

《PythonTransformers库(NLP处理库)案例代码讲解》本文介绍transformers库的全面讲解,包含基础知识、高级用法、案例代码及学习路径,内容经过组织,适合不同阶段的学习者,对... 目录一、基础知识1. Transformers 库简介2. 安装与环境配置3. 快速上手示例二、核心模

Python中使用正则表达式精准匹配IP地址的案例

《Python中使用正则表达式精准匹配IP地址的案例》Python的正则表达式(re模块)是完成这个任务的利器,但你知道怎么写才能准确匹配各种合法的IP地址吗,今天我们就来详细探讨这个问题,感兴趣的朋... 目录为什么需要IP正则表达式?IP地址的基本结构基础正则表达式写法精确匹配0-255的数字验证IP地

MySQL高级查询之JOIN、子查询、窗口函数实际案例

《MySQL高级查询之JOIN、子查询、窗口函数实际案例》:本文主要介绍MySQL高级查询之JOIN、子查询、窗口函数实际案例的相关资料,JOIN用于多表关联查询,子查询用于数据筛选和过滤,窗口函... 目录前言1. JOIN(连接查询)1.1 内连接(INNER JOIN)1.2 左连接(LEFT JOI

springboot循环依赖问题案例代码及解决办法

《springboot循环依赖问题案例代码及解决办法》在SpringBoot中,如果两个或多个Bean之间存在循环依赖(即BeanA依赖BeanB,而BeanB又依赖BeanA),会导致Spring的... 目录1. 什么是循环依赖?2. 循环依赖的场景案例3. 解决循环依赖的常见方法方法 1:使用 @La

java String.join()的使用小结

《javaString.join()的使用小结》String.join()是Java8引入的一个实用方法,用于将多个字符串按照指定分隔符连接成一个字符串,本文主要介绍了javaString.join... 目录1. 方法定义2. 基本用法2.1 拼接多个字符串2.2 拼接集合中的字符串3. 使用场景和示例3

MySQL中实现多表查询的操作方法(配sql+实操图+案例巩固 通俗易懂版)

《MySQL中实现多表查询的操作方法(配sql+实操图+案例巩固通俗易懂版)》本文主要讲解了MySQL中的多表查询,包括子查询、笛卡尔积、自连接、多表查询的实现方法以及多列子查询等,通过实际例子和操... 目录复合查询1. 回顾查询基本操作group by 分组having1. 显示部门号为10的部门名,员