借助ArangoDB,带你玩转Google图算法引擎Pregel

2024-05-07 09:08

本文主要是介绍借助ArangoDB,带你玩转Google图算法引擎Pregel,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

借助ArangoDB,带你玩转Google图算法引擎Pregel

 
 

ArangoDB团队研究出一种算法,能够在一个图中识别出已连接的子图,文中以国家为例;在ArangoDB中引入Pregel框架,通过Worker算法、合成算法、pregelRunner模块来执行不同的实现方式。来试试吧!

ArangoDB团队研究出一种算法,能够在一个图中识别出已连接的子图,文中以国家为例;在ArangoDB中引入Pregel框架,通过Worker算法、合成算法、pregelRunner模块来执行不同的实现方式。开发者也可以自行编写算法,编程世界魅力无穷!

译文如下:

Pregel作为Google推出的一种面向图算法的分布式编程框架,主要用于处理大规模的图算法计算。比如,图遍历(BFS)、最短路径(SSSP)、PageRank计算等。

检测“已连接节点”的算法

为了解决已连接节点的问题,ArangoDB团队研究出一种算法,能够在一个图中识别出已连接的子图。这里以国家为例子,下图包含10个国家,互相之间的关系定义为边界接壤(hasBorderWith),其形成的4种已连接节点组分别为:

  1. 德国,奥地利,瑞士
  2. 摩洛哥,阿尔及利亚,突尼斯
  3. 巴西,阿根廷,乌拉圭
  4. 澳大利亚

要导入该图,请点击这里进行下载,然后打开ArangoShell并执行如下语句:

Worker算法

Worker算法执行于图中每个顶点之上,每个顶点有一个相关的消息游标和一个global对象,里面含有步长信息和用户定义的Global数据。该算法定义如下:

为了检测所有的节点组,这里使用了一种非常直接的方法:

每个节点组有一个字母标识符,存有其顶点最后的_key属性信息。所以,第0步的时候,每个顶点存储的是其自身的key信息以及初始邻近接壤节点信息。要访问源顶点需要使用_get(“someAttribute”)方法:

一个顶点只能访问其外部边界,因此在第1步的时候要记得把它所有接收到的消息放入数组中,以便进行向后通信,同时要根据传入的消息来更新节点组。

所以前两步的操作开启了向前和向后通信,接着执行算法直到每个顶贴都接收到其顶点组标识信息。因此,当接收到邻近标识符信息后,每个顶点需要更新顶点组标识信息:

当一个顶点不再接收到新的消息或新的组标识时,要使它暂时失效。仅当再从邻近顶点接收新消息的时候进行激活:

如果接收到新的组标识时要把结果进行存储:

接着要通知邻近顶点,包括向前与向后:

然后失效该顶点直到接收到新的消息:

合成算法

为了减少冗余的消息使得工作者算法更加高效,ArangoDB团队引入了消息合成算法。比方说在该示例中,德国节点可能会收到来自奥地利和瑞士的消息;由于按字母排序,奥地利的消息可以忽略,从而减少不必要的消息接收。在Pregel中的消息合成器可定义为:

合成器会筛选冗余消息,然后发送有效的标识信息:

引入该算法后,德国节点虽然有两个接壤点,但是只会收到一个消息。

pregelRunner模块

首先创建Runner实例:

Pregel算法的具体实现请点击这里进行下载。在Shell中载入该文件,使Runner可以实现相关函数:

然后在图中启动Pregel:

启动后会接收到唯一的执行码,可以使用runner来查阅当前运行状态:

执行完毕后可以得到图的结果名:

要检查该结果是否符合要求,可以载入全部顶点进行校对:

结果是正确的,算法能正确识别出4个子图(瑞士,突尼斯,乌拉圭,澳大利亚)。最后要做好收尾工作:

写在最后:

ArangoDB仍在进一步完善pregelRunner以满足更大规模图处理的需求。很多受时间和内存限制的大型图问题在Pregel系统中都可逐步解决,例如:最短路径,图着色,最小生成树等。

这篇关于借助ArangoDB,带你玩转Google图算法引擎Pregel的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/966922

相关文章

Java比较和交换示例 - CAS算法

Java比较和交换示例 - CAS算法 由Lokesh Gupta | 提起下:多线程 一个Java 5中最好添加的是支持类,如原子操作AtomicInteger,AtomicLong等等。这些课程帮助您最大限度地减少复杂的(非必要)需要多线程的,如增加一些基本的操作代码或递减的值在多个线程之间共享。这些类内部依赖于名为CAS(比较和交换)的算法。在本文中,我将详细讨论这个概念。 1.乐观和

Java内存管理 - 垃圾收集算法

我们都知道Java 中垃圾收集器 [GC] 的功能。但只有少数人试图深入了解垃圾收集的工作原理。你不是其中之一,这就是你在这里的原因。 在这个Java内存管理教程中,我们将尝试了解Java垃圾收集的当前算法,我们将了解这些算法的演变。 目录1. Java中的内存管理2.引用计数机制3.标记和清除机制4.停止并复制GC 5.分代停止和复制6.如何提高Java中的内存利用率 1.

借助百度云中的百度人脸识别用Java开发一个人脸识别

百度应用创建步骤官网图文提供:http://ai.baidu.com/docs#/Begin/top 获取Token图文步骤官网已提供:http://ai.baidu.com/docs#/Auth/top  人脸检测V3在线体验:https://www.ydxiaoshuai.cn/xai/rest/face/index 人脸检测V3(JavaAPI)示例代码地址:【人脸检测】V3版的你

集锦——浏览器每次访问自动更新网页,不用手工设置,附Google/firefox/Ie

在做开发web开发的时候,经常要使用到浏览器来着进行调试,那么有时候自己修改了内容,可是在浏览器上还是没有显示出来,费了好久才发现是浏览器缓存的问题。还要强制刷新缓存 就是 Ctrl + F5 。所以在开发时候,最好将自己的调试浏览器设置为访问自动刷新网页,不要使用页面的缓存。下面就是常用开发浏览器的设置: 1. Chrome 浏览器 打开到开发者模式: 将Disable cache (

有感FOC算法学习与实现总结

文章目录 基于STM32的有感FOC算法学习与实现总结1 前言2 FOC算法架构3 坐标变换3.1 Clark变换3.2 Park变换3.3 Park反变换 4 SVPWM5 反馈部分5.1 相电流5.2 电角度和转速 6 闭环控制6.1 电流环6.2 速度环6.3 位置环 写在最

算法的设计方式

1.贪心算法 贪心算法(又称贪婪算法)是指在对问题求解时,从问题的某一个初始解出发,总是做出在当前看来最好的选择,当达到某算法中的某一步不能再继续前进时,算法停止。这时,就得到了问题的一个解,但不能保证求得的最后解是最优的。也就是说,不从整体最优上加以考虑,它所做出的仅是在某种意义上的局部最优解。贪心算法不是对所有问题都能得到整体最优解,但对范围相当广泛的许多问题能产生整体最优解或者是整体最优解

冒泡算法及改进(属于交换排序)

冒泡排序(Bubble Sort)是一种交换排序,快速排序也属于一种交换排序。冒泡排序的基本思想是:两两比较相邻记录的关键字,如果反序则交换,直到没有反序的记录为止。 假设一共共有 n 个数,则会进行 (n-1)趟比较,由1,2......n-1这么多趟,第一趟进行 (n-1)次比较,.......第n-1趟进行1次比较,故有公式:第i趟 +  第i趟的比较次数 = n       时间复杂度为

算法day07

第一题 30. 串联所有单词的子串         上题题意如下:          将w数组里面的字符串随机排列,只要在s字符串中找到相对应的w组成的字符串,则返回s中对应字符串首位元素的第一个下标;                  有上述题意所知,解题思路如上一题故事,本题采用hash表和滑动窗口的模型;         首先对于words字符串数组进行处理:

【算法】网络图中的dfs

快乐的流畅:个人主页 个人专栏:《算法神殿》《数据结构世界》《进击的C++》 远方有一堆篝火,在为久候之人燃烧! 文章目录 引言一、单词搜索二、黄金矿工三、不同路径 |||四、图像渲染五、岛屿数量六、岛屿的最大面积七、被围绕的区域八、太平洋大西洋水流问题九、扫雷游戏总结 引言 在二维网络图中的dfs,反而一般不需要画决策树,因