Mapjoin和Reducejoin案例

2023-12-14 06:18
文章标签 案例 mapjoin reducejoin

本文主要是介绍Mapjoin和Reducejoin案例,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、Mapjoin案例

  1.需求:有两个文件,分别是订单表、商品表,

  订单表有三个属性分别为订单时间、商品id、订单id(表示内容量大的表),

  商品表有两个属性分别为商品id、商品名称(表示内容量小的表,用于加载到内存),

  要求结果文件为在订单表中的每一行最后添加商品id对应的商品名称。

  2.解决思路:

  将商品表加载到内存中,然后再map方法中将订单表中的商品id对应的商品名称添加到该行的最后,不需要Reducer,并在Driver执行类中设置setCacheFile和numReduceTask。

  3.代码如下:

public class CacheMapper extends Mapper<LongWritable, Text, Text, NullWritable>{HashMap<String, String> pdMap = new HashMap<>();//1.商品表加载到内存protected void setup(Context context) throws IOException {//加载缓存文件BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream("pd.txt"), "Utf-8"));String line;while(StringUtils.isNotEmpty(line = br.readLine()) ) {//切分String[] fields = line.split("\t");//缓存pdMap.put(fields[0], fields[1]);}br.close();}//2.map传输@Overrideprotected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, NullWritable>.Context context)throws IOException, InterruptedException {//获取数据String line = value.toString();//切割String[] fields = line.split("\t");//获取订单中商品idString pid = fields[1];//根据订单商品id获取商品名String pName = pdMap.get(pid);//拼接数据line = line + "\t" + pName;//输出context.write(new Text(line), NullWritable.get());}
}public class CacheDriver {public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException, URISyntaxException {// 1.获取job信息Configuration conf = new Configuration();Job job = Job.getInstance(conf);// 2.获取jar包job.setJarByClass(CacheDriver.class);// 3.获取自定义的mapper与reducer类job.setMapperClass(CacheMapper.class);// 5.设置reduce输出的数据类型(最终的数据类型)job.setOutputKeyClass(Text.class);job.setOutputValueClass(NullWritable.class);// 6.设置输入存在的路径与处理后的结果路径FileInputFormat.setInputPaths(job, new Path("c://table1029//in"));FileOutputFormat.setOutputPath(job, new Path("c://table1029//out"));//加载缓存商品数据job.addCacheFile(new URI("file:///c:/inputcache/pd.txt"));//设置一下reducetask的数量job.setNumReduceTasks(0);// 7.提交任务boolean rs = job.waitForCompletion(true);System.out.println(rs ? 0 : 1);}
}

  

二、Reducejoin案例

  1.需求:同上的两个数据文件,要求将订单表中的商品id替换成对应的商品名称。

  2.解决思路:封装TableBean类,包含属性:时间、商品id、订单id、商品名称、flag(flag用来判断是哪张表),

    使用Mapper读两张表,通过context对象获取切片对象,然后通过切片获取切片名称和路径的字符串来判断是哪张表,再将切片的数据封装到TableBean对象,最后以产品id为key、TableBean对象为value传输到Reducer端;

    Reducer接收数据后通过flag判断是哪张表,因为一个reduce中的所有数据的key是相同的,将商品表的商品id和商品名称读入到一个TableBean对象中,然后将订单表的中的数据读入到TableBean类型的ArrayList对象中,然后将ArrayList中的每个TableBean的商品id替换为商品名称,然后遍历该数组以TableBean为key输出。

  3.代码如下:

/*** @author: PrincessHug* @date: 2019/3/30, 2:37* @Blog: https://www.cnblogs.com/HelloBigTable/*/
public class TableBean implements Writable {private String timeStamp;private String productId;private String orderId;private String productName;private String flag;public TableBean() {}public String getTimeStamp() {return timeStamp;}public void setTimeStamp(String timeStamp) {this.timeStamp = timeStamp;}public String getProductId() {return productId;}public void setProductId(String productId) {this.productId = productId;}public String getOrderId() {return orderId;}public void setOrderId(String orderId) {this.orderId = orderId;}public String getProductName() {return productName;}public void setProductName(String productName) {this.productName = productName;}public String getFlag() {return flag;}public void setFlag(String flag) {this.flag = flag;}@Overridepublic void write(DataOutput out) throws IOException {out.writeUTF(timeStamp);out.writeUTF(productId);out.writeUTF(orderId);out.writeUTF(productName);out.writeUTF(flag);}@Overridepublic void readFields(DataInput in) throws IOException {timeStamp = in.readUTF();productId = in.readUTF();orderId = in.readUTF();productName = in.readUTF();flag = in.readUTF();}@Overridepublic String toString() {return timeStamp + "\t" + productName + "\t" + orderId;}
}public class TableMapper extends Mapper<LongWritable, Text,Text,TableBean> {@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {//通过切片获取文件信息FileSplit split = (FileSplit) context.getInputSplit();String name = split.getPath().getName();//获取一行数据、定义TableBean对象String line = value.toString();TableBean tb = new TableBean();Text t = new Text();//判断是哪一张表if (name.contains("order.txt")){String[] fields = line.split("\t");tb.setTimeStamp(fields[0]);tb.setProductId(fields[1]);tb.setOrderId(fields[2]);tb.setProductName("");tb.setFlag("0");t.set(fields[1]);}else {String[] fields = line.split("\t");tb.setTimeStamp("");tb.setProductId(fields[0]);tb.setOrderId("");tb.setProductName(fields[1]);tb.setFlag("1");t.set(fields[0]);}context.write(t,tb);}
}public class TableReducer extends Reducer<Text,TableBean,TableBean, NullWritable> {@Overrideprotected void reduce(Text key, Iterable<TableBean> values, Context context) throws IOException, InterruptedException {//分别创建用来存储订单表和产品表的集合ArrayList<TableBean> orderBean = new ArrayList<>();TableBean productBean = new TableBean();//遍历values,通过flag判断是产品表还是订单表for (TableBean v:values){if (v.getFlag().equals("0")){TableBean tableBean = new TableBean();try {BeanUtils.copyProperties(tableBean,v);} catch (IllegalAccessException e) {e.printStackTrace();} catch (InvocationTargetException e) {e.printStackTrace();}orderBean.add(tableBean);}else {try {BeanUtils.copyProperties(productBean,v);} catch (IllegalAccessException e) {e.printStackTrace();} catch (InvocationTargetException e) {e.printStackTrace();}}}//拼接表for (TableBean ob:orderBean) {ob.setProductName(productBean.getProductName());context.write(ob,NullWritable.get());}}
}public class TableDriver {public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {//job信息Configuration conf = new Configuration();Job job = Job.getInstance(conf);//jar包job.setJarByClass(TableDriver.class);//Mapper、Reducerjob.setMapperClass(TableMapper.class);job.setReducerClass(TableReducer.class);//Mapper输出数据类型job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(TableBean.class);//Reducer输出数据类型job.setOutputKeyClass(TableBean.class);job.setOutputValueClass(NullWritable.class);//输入输出路径FileInputFormat.setInputPaths(job,new Path("G:\\mapreduce\\reducejoin\\in"));FileOutputFormat.setOutputPath(job,new Path("G:\\mapreduce\\reducejoin\\out"));//提交任务if (job.waitForCompletion(true)){System.out.println("运行完成!");}else {System.out.println("运行失败!");}}
}

  

 

转载于:https://www.cnblogs.com/HelloBigTable/p/10668306.html

这篇关于Mapjoin和Reducejoin案例的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/491433

相关文章

MyBatis分页查询实战案例完整流程

《MyBatis分页查询实战案例完整流程》MyBatis是一个强大的Java持久层框架,支持自定义SQL和高级映射,本案例以员工工资信息管理为例,详细讲解如何在IDEA中使用MyBatis结合Page... 目录1. MyBATis框架简介2. 分页查询原理与应用场景2.1 分页查询的基本原理2.1.1 分

深度解析Java @Serial 注解及常见错误案例

《深度解析Java@Serial注解及常见错误案例》Java14引入@Serial注解,用于编译时校验序列化成员,替代传统方式解决运行时错误,适用于Serializable类的方法/字段,需注意签... 目录Java @Serial 注解深度解析1. 注解本质2. 核心作用(1) 主要用途(2) 适用位置3

Java 正则表达式的使用实战案例

《Java正则表达式的使用实战案例》本文详细介绍了Java正则表达式的使用方法,涵盖语法细节、核心类方法、高级特性及实战案例,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要... 目录一、正则表达式语法详解1. 基础字符匹配2. 字符类([]定义)3. 量词(控制匹配次数)4. 边

Python Counter 函数使用案例

《PythonCounter函数使用案例》Counter是collections模块中的一个类,专门用于对可迭代对象中的元素进行计数,接下来通过本文给大家介绍PythonCounter函数使用案例... 目录一、Counter函数概述二、基本使用案例(一)列表元素计数(二)字符串字符计数(三)元组计数三、C

Spring Boot 整合 SSE(Server-Sent Events)实战案例(全网最全)

《SpringBoot整合SSE(Server-SentEvents)实战案例(全网最全)》本文通过实战案例讲解SpringBoot整合SSE技术,涵盖实现原理、代码配置、异常处理及前端交互,... 目录Spring Boot 整合 SSE(Server-Sent Events)1、简述SSE与其他技术的对

MySQL 临时表与复制表操作全流程案例

《MySQL临时表与复制表操作全流程案例》本文介绍MySQL临时表与复制表的区别与使用,涵盖生命周期、存储机制、操作限制、创建方法及常见问题,本文结合实例代码给大家介绍的非常详细,感兴趣的朋友跟随小... 目录一、mysql 临时表(一)核心特性拓展(二)操作全流程案例1. 复杂查询中的临时表应用2. 临时

MySQL 数据库表与查询操作实战案例

《MySQL数据库表与查询操作实战案例》本文将通过实际案例,详细介绍MySQL中数据库表的设计、数据插入以及常用的查询操作,帮助初学者快速上手,感兴趣的朋友跟随小编一起看看吧... 目录mysql 数据库表操作与查询实战案例项目一:产品相关数据库设计与创建一、数据库及表结构设计二、数据库与表的创建项目二:员

C#中的Drawing 类案例详解

《C#中的Drawing类案例详解》文章解析WPF与WinForms的Drawing类差异,涵盖命名空间、继承链、常用类及应用场景,通过案例展示如何创建带阴影圆角矩形按钮,强调WPF的轻量、可动画特... 目录一、Drawing 是什么?二、典型用法三、案例:画一个“带阴影的圆角矩形按钮”四、WinForm

setsid 命令工作原理和使用案例介绍

《setsid命令工作原理和使用案例介绍》setsid命令在Linux中创建独立会话,使进程脱离终端运行,适用于守护进程和后台任务,通过重定向输出和确保权限,可有效管理长时间运行的进程,本文给大家介... 目录setsid 命令介绍和使用案例基本介绍基本语法主要特点命令参数使用案例1. 在后台运行命令2.

RabbitMQ消费端单线程与多线程案例讲解

《RabbitMQ消费端单线程与多线程案例讲解》文章解析RabbitMQ消费端单线程与多线程处理机制,说明concurrency控制消费者数量,max-concurrency控制最大线程数,prefe... 目录 一、基础概念详细解释:举个例子:✅ 单消费者 + 单线程消费❌ 单消费者 + 多线程消费❌ 多