常用图算法实现--Spar

2023-11-23 03:21
文章标签 算法 实现 常用 spar

本文主要是介绍常用图算法实现--Spar,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

使用Spark实现PageRank,强连通分量等图算法

PageRank

数据准备

边:

1 2
1 15
2 3
2 4
2 5
2 6
2 7
3 13
4 2
5 11
5 12
6 1
6 7
6 8
7 1
7 8
8 1
8 9
8 10
9 14
9 1
10 1
10 13
11 12
11 1
12 1
13 14
14 12
15 1

网页:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

将这两个文件放入HDFS:

hdfs dfs -mkdir input/PageRank
hdfs dfs -put links.txt input/PageRank
hdfs dfs -put pages.txt input/PageRank

编写程序

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.*;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.PairFunction;
import scala.Tuple2;import static java.lang.Math.abs;public class PageRank {private static int MaxIteration = 100;private static final double DAMPENING_FACTOR = 0.85;private static final double EPSILON = 0.0001;public static void main(String[] args) {SparkConf conf = new SparkConf().setAppName("PageRank");JavaSparkContext sc = new JavaSparkContext(conf);sc.setLogLevel("WARN");String linksFile = "hdfs:///user/hadoop/input/PageRank/links.txt";String pagesFile = "hdfs:///user/hadoop/input/PageRank/pages.txt";String rankFile = "hdfs:///user/hadoop/output/Graph/SparkPageRank";/***  neighborRDD: (from, s)*  linksRDD: tuple (from, [to,1/m])*  pageRDD: vertex*  pageRankRDD: (point, 1/n)*/JavaPairRDD<Integer, Integer> neighborRDD = sc.textFile(linksFile).mapToPair(line -> new Tuple2<>(Integer.parseInt(line.split(" ")[0]), 1)).reduceByKey((x, y) -> x + y);JavaPairRDD<Integer, Tuple2<Integer, Integer>> linksRDD = sc.textFile(linksFile).mapToPair(line -> new Tuple2<>(Integer.parseInt(line.split(" ")[0]),Integer.parseInt(line.split(" ")[1]))).join(neighborRDD);JavaRDD<Integer> pagesRDD = sc.textFile(pagesFile).map(line -> Integer.parseInt(line));long pageCount = pagesRDD.count();JavaPairRDD<Integer, Double> pageRankRDD = pagesRDD.mapToPair(vertex -> new Tuple2<>(vertex, 1.0 / pageCount));int count = 0;while (count < MaxIteration) {JavaPairRDD<Integer, Double> NewPageRankRDD = linksRDD.join(pageRankRDD).mapToPair(new PairFunction<Tuple2<Integer, Tuple2<Tuple2<Integer, Integer>, Double>>, Integer, Double>() {@Overridepublic Tuple2<Integer, Double> call(Tuple2<Integer, Tuple2<Tuple2<Integer, Integer>, Double>> ans) throws Exception {
//                               // [ toNode, fraction * rank]return new Tuple2<>(ans._2._1._1, ans._2._2/ans._2._1._2);}}).reduceByKey((v1, v2) -> v1 + v2).mapValues(new Function<Double, Double>() {double dampening = DAMPENING_FACTOR;double randomJump = (1 - DAMPENING_FACTOR) / pageCount;@Overridepublic Double call(Double value) throws Exception {value = value * dampening + randomJump;return value;}});count++;JavaPairRDD<Integer, Tuple2<Double, Double>> compare = pageRankRDD.join(NewPageRankRDD).filter(each -> abs(each._2._1 - each._2._2) > EPSILON);if (compare.isEmpty() || count > MaxIteration)break;pageRankRDD = NewPageRankRDD;}pageRankRDD.saveAsTextFile(rankFile);}
}

思路:

  1. 全部使用Lambda表达式进行,首先需要找到所有的边的条数,初始化Rank值
  2. 然后使用Join进行合并,并计算下一轮Rank
  3. 使用DAMPENING_FACTOR进行随机跳转

运行

spark-submit  --class PageRank PageRank-1.0.jar
hdfs dfs -cat output/Graph/SparkPageRank/*

结果为:

54622233513

ConnectedComponents

数据准备

提供基本数据集,与PageRank一样,指定顶点和边

vertices.txt

准备一些顶点,例如1-16

edges.txt

准备一些连接边:

1 2
2 3
2 4
3 5
6 7
8 9
8 10
5 11
11 12
10 13
9 14
13 14
1 15
16 1

将这两个文件放入HDFS:

hdfs dfs -mkdir input/ConnectedComponents
hdfs dfs -put edges.txt input/ConnectedComponents
hdfs dfs -put vertices.txt input/ConnectedComponents

编写程序

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaSparkContext;
import scala.Tuple2;import static java.lang.StrictMath.min;public class ConnectedComponents {public static int MaxIteration = 100;public static void main(String[] args) {SparkConf conf = new SparkConf().setAppName("ConnectedComponents");JavaSparkContext sc = new JavaSparkContext(conf);sc.setLogLevel("WARN");String edgesFile = "hdfs:///user/hadoop/input/ConnectedComponents/edges.txt";String verticesFile = "hdfs:///user/hadoop/input/ConnectedComponents/vertices.txt";String outFile = "hdfs:///user/hadoop/output/Graph/SparkConnectedComponents";/*** edgesRDD: [x,y]* componentsRDD: [x,x] init*/JavaPairRDD<Integer, Integer> edgesRDD = sc.textFile(edgesFile).mapToPair(line -> new Tuple2<>(Integer.parseInt(line.split(" ")[0]),Integer.parseInt(line.split(" ")[1])));JavaPairRDD<Integer, Integer> componentsRDD = sc.textFile(verticesFile).mapToPair(line -> new Tuple2<>(Integer.parseInt(line), Integer.parseInt(line)));int count = 0;while (count < MaxIteration) {JavaPairRDD<Integer, Integer> newcomponentsRDD = componentsRDD.join(edgesRDD).mapToPair(x -> new Tuple2<>(x._2._2, x._2._1)).reduceByKey((v1, v2) -> min(v1, v2));JavaPairRDD<Integer, Tuple2<Integer, Integer>> filterRDD = newcomponentsRDD.join(componentsRDD).filter(each -> each._2._1 < each._2._2);if (filterRDD.isEmpty())break;// update to componentsRDDcomponentsRDD = componentsRDD.leftOuterJoin(newcomponentsRDD).mapValues(v -> min(v._1, v._2.orElse(v._1)));count++;}componentsRDD.saveAsTextFile(outFile);}
}

思路:

  1. 首先需要将每个点映射成自己的强连通分支
  2. 每次迭代,更新与自己相连的点的强连通分支,取最小值
  3. 使用左连接更新原始的强连通分支

运行

spark-submit  --class ConnectedComponents ConnectedComponents-1.0.jar
hdfs dfs -cat output/Graph/SparkConnectedComponents/*

查看结果:

54622728559

SingleSourceShortestPaths

数据准备

首先我们需要准备边和点

边:

1 2 12.0
1 3 13.0
2 3 23.0
3 4 34.0
3 5 35.0
4 5 45.0
5 1 51.0

点:

1
2
3
4
5

将这两个文件放入HDFS:

hdfs dfs -mkdir input/SingleSourceShortestPaths
hdfs dfs -put edges.txt input/SingleSourceShortestPaths
hdfs dfs -put vertices.txt input/SingleSourceShortestPaths

编写程序

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaSparkContext;
import scala.Tuple2;import javax.validation.constraints.Max;import static java.lang.StrictMath.min;public class SingleSourceShortestPaths {public static int sourceVerticeID = 1;public static int MaxIteration = 100;public static void main(String[] args) throws Exception {SparkConf conf = new SparkConf().setAppName("ConnectedComponents");JavaSparkContext sc = new JavaSparkContext(conf);sc.setLogLevel("WARN");String edgesFile = "hdfs:///user/hadoop/input/SingleSourceShortestPaths/edges.txt";String verticesFile = "hdfs:///user/hadoop/input/SingleSourceShortestPaths/vertices.txt";String outFile = "hdfs:///user/hadoop/output/Graph/SparkSingleSourceShortestPaths";/*** edgesRDD: [from, to, dis ]* verticesRDD: [vertice, dis]*/JavaPairRDD<Integer, Tuple2<Integer, Double>> edgesRDD = sc.textFile(edgesFile).mapToPair(line -> {int from = Integer.parseInt(line.split(" ")[0]);int to = Integer.parseInt(line.split(" ")[1]);double dis = Double.parseDouble(line.split(" ")[2]);return new Tuple2<>(from, new Tuple2<>(to, dis));});JavaPairRDD<Integer, Double> verticesRDD = sc.textFile(verticesFile).mapToPair(line -> {int vertice = Integer.parseInt(line);if (vertice == sourceVerticeID)return new Tuple2<>(vertice, 0.0);return new Tuple2<>(vertice, Double.POSITIVE_INFINITY);});int count = 0;while (count < MaxIteration) {// get new disJavaPairRDD<Integer, Double> newVerticesRDD = verticesRDD.join(edgesRDD).mapToPair(line -> {if (line._2._1 != Double.POSITIVE_INFINITY)return new Tuple2<>(line._2._2._1, line._2._1 + line._2._2._2);return new Tuple2<>(line._2._2._1, Double.POSITIVE_INFINITY);}).reduceByKey((v1, v2) -> min(v1, v2));JavaPairRDD<Integer, Tuple2<Double, Double>> filterRDD = newVerticesRDD.join(verticesRDD).filter(each -> each._2._1 < each._2._2);if (filterRDD.isEmpty())break;// update to verticesRDDverticesRDD = verticesRDD.leftOuterJoin(newVerticesRDD).mapValues(v -> min(v._1, v._2.orElse(v._1)));}verticesRDD.saveAsTextFile(outFile);}
}

思路:

  1. 首先需要初始化每个顶点的距离,将原始点设置为0,其余设置为无穷
  2. 每次迭代得到新的顶点距离,并使用reduceByKey最小化,比较是否更新
  3. 然后将更新得到的顶点距离加入原始RDD中

运行

spark-submit  --class SingleSourceShortestPaths SingleSourceShortestPaths-1.0.jar
hdfs dfs -cat output/Graph/SparkSingleSourceShortestPaths/*

查看结果:

54623040420

这篇关于常用图算法实现--Spar的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/414994

相关文章

HTML5 getUserMedia API网页录音实现指南示例小结

《HTML5getUserMediaAPI网页录音实现指南示例小结》本教程将指导你如何利用这一API,结合WebAudioAPI,实现网页录音功能,从获取音频流到处理和保存录音,整个过程将逐步... 目录1. html5 getUserMedia API简介1.1 API概念与历史1.2 功能与优势1.3

gitlab安装及邮箱配置和常用使用方式

《gitlab安装及邮箱配置和常用使用方式》:本文主要介绍gitlab安装及邮箱配置和常用使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1.安装GitLab2.配置GitLab邮件服务3.GitLab的账号注册邮箱验证及其分组4.gitlab分支和标签的

Java实现删除文件中的指定内容

《Java实现删除文件中的指定内容》在日常开发中,经常需要对文本文件进行批量处理,其中,删除文件中指定内容是最常见的需求之一,下面我们就来看看如何使用java实现删除文件中的指定内容吧... 目录1. 项目背景详细介绍2. 项目需求详细介绍2.1 功能需求2.2 非功能需求3. 相关技术详细介绍3.1 Ja

使用Python和OpenCV库实现实时颜色识别系统

《使用Python和OpenCV库实现实时颜色识别系统》:本文主要介绍使用Python和OpenCV库实现的实时颜色识别系统,这个系统能够通过摄像头捕捉视频流,并在视频中指定区域内识别主要颜色(红... 目录一、引言二、系统概述三、代码解析1. 导入库2. 颜色识别函数3. 主程序循环四、HSV色彩空间详解

PostgreSQL中MVCC 机制的实现

《PostgreSQL中MVCC机制的实现》本文主要介绍了PostgreSQL中MVCC机制的实现,通过多版本数据存储、快照隔离和事务ID管理实现高并发读写,具有一定的参考价值,感兴趣的可以了解一下... 目录一 MVCC 基本原理python1.1 MVCC 核心概念1.2 与传统锁机制对比二 Postg

SpringBoot整合Flowable实现工作流的详细流程

《SpringBoot整合Flowable实现工作流的详细流程》Flowable是一个使用Java编写的轻量级业务流程引擎,Flowable流程引擎可用于部署BPMN2.0流程定义,创建这些流程定义的... 目录1、流程引擎介绍2、创建项目3、画流程图4、开发接口4.1 Java 类梳理4.2 查看流程图4

C++中零拷贝的多种实现方式

《C++中零拷贝的多种实现方式》本文主要介绍了C++中零拷贝的实现示例,旨在在减少数据在内存中的不必要复制,从而提高程序性能、降低内存使用并减少CPU消耗,零拷贝技术通过多种方式实现,下面就来了解一下... 目录一、C++中零拷贝技术的核心概念二、std::string_view 简介三、std::stri

Python常用命令提示符使用方法详解

《Python常用命令提示符使用方法详解》在学习python的过程中,我们需要用到命令提示符(CMD)进行环境的配置,:本文主要介绍Python常用命令提示符使用方法的相关资料,文中通过代码介绍的... 目录一、python环境基础命令【Windows】1、检查Python是否安装2、 查看Python的安

C++高效内存池实现减少动态分配开销的解决方案

《C++高效内存池实现减少动态分配开销的解决方案》C++动态内存分配存在系统调用开销、碎片化和锁竞争等性能问题,内存池通过预分配、分块管理和缓存复用解决这些问题,下面就来了解一下... 目录一、C++内存分配的性能挑战二、内存池技术的核心原理三、主流内存池实现:TCMalloc与Jemalloc1. TCM

OpenCV实现实时颜色检测的示例

《OpenCV实现实时颜色检测的示例》本文主要介绍了OpenCV实现实时颜色检测的示例,通过HSV色彩空间转换和色调范围判断实现红黄绿蓝颜色检测,包含视频捕捉、区域标记、颜色分析等功能,具有一定的参考... 目录一、引言二、系统概述三、代码解析1. 导入库2. 颜色识别函数3. 主程序循环四、HSV色彩空间