借助ArangoDB，带你玩转Google图算法引擎Pregel

2024-05-07 09:08

文章标签 算法引擎玩转 google 借助 pregel arangodb

本文主要是介绍借助ArangoDB，带你玩转Google图算法引擎Pregel，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

借助ArangoDB，带你玩转Google图算法引擎Pregel

ArangoDB团队研究出一种算法，能够在一个图中识别出已连接的子图，文中以国家为例；在ArangoDB中引入Pregel框架，通过Worker算法、合成算法、pregelRunner模块来执行不同的实现方式。来试试吧！

ArangoDB团队研究出一种算法，能够在一个图中识别出已连接的子图，文中以国家为例；在ArangoDB中引入Pregel框架，通过Worker算法、合成算法、pregelRunner模块来执行不同的实现方式。开发者也可以自行编写算法，编程世界魅力无穷！

译文如下：

Pregel作为Google推出的一种面向图算法的分布式编程框架，主要用于处理大规模的图算法计算。比如，图遍历（BFS）、最短路径（SSSP）、PageRank计算等。

检测“已连接节点”的算法

为了解决已连接节点的问题，ArangoDB团队研究出一种算法，能够在一个图中识别出已连接的子图。这里以国家为例子，下图包含10个国家，互相之间的关系定义为边界接壤(hasBorderWith)，其形成的4种已连接节点组分别为：

德国，奥地利，瑞士
摩洛哥，阿尔及利亚，突尼斯
巴西，阿根廷，乌拉圭
澳大利亚

要导入该图，请点击这里进行下载，然后打开ArangoShell并执行如下语句：

Worker算法

Worker算法执行于图中每个顶点之上，每个顶点有一个相关的消息游标和一个global对象，里面含有步长信息和用户定义的Global数据。该算法定义如下：

为了检测所有的节点组，这里使用了一种非常直接的方法：

每个节点组有一个字母标识符，存有其顶点最后的_key属性信息。所以，第0步的时候，每个顶点存储的是其自身的key信息以及初始邻近接壤节点信息。要访问源顶点需要使用_get(“someAttribute”)方法：

一个顶点只能访问其外部边界，因此在第1步的时候要记得把它所有接收到的消息放入数组中，以便进行向后通信，同时要根据传入的消息来更新节点组。

所以前两步的操作开启了向前和向后通信，接着执行算法直到每个顶贴都接收到其顶点组标识信息。因此，当接收到邻近标识符信息后，每个顶点需要更新顶点组标识信息：

当一个顶点不再接收到新的消息或新的组标识时，要使它暂时失效。仅当再从邻近顶点接收新消息的时候进行激活：

如果接收到新的组标识时要把结果进行存储：

接着要通知邻近顶点，包括向前与向后：

然后失效该顶点直到接收到新的消息：

合成算法

为了减少冗余的消息使得工作者算法更加高效，ArangoDB团队引入了消息合成算法。比方说在该示例中，德国节点可能会收到来自奥地利和瑞士的消息；由于按字母排序，奥地利的消息可以忽略，从而减少不必要的消息接收。在Pregel中的消息合成器可定义为：

合成器会筛选冗余消息，然后发送有效的标识信息：

引入该算法后，德国节点虽然有两个接壤点，但是只会收到一个消息。

pregelRunner模块

首先创建Runner实例：

Pregel算法的具体实现请点击这里进行下载。在Shell中载入该文件，使Runner可以实现相关函数：

然后在图中启动Pregel：

启动后会接收到唯一的执行码，可以使用runner来查阅当前运行状态：

执行完毕后可以得到图的结果名：

要检查该结果是否符合要求，可以载入全部顶点进行校对：

结果是正确的，算法能正确识别出4个子图(瑞士，突尼斯，乌拉圭，澳大利亚)。最后要做好收尾工作：

写在最后：

ArangoDB仍在进一步完善pregelRunner以满足更大规模图处理的需求。很多受时间和内存限制的大型图问题在Pregel系统中都可逐步解决，例如：最短路径，图着色，最小生成树等。

这篇关于借助ArangoDB，带你玩转Google图算法引擎Pregel的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/966922。 23002807@qq.com

相关文章

Java中的雪花算法Snowflake解析与实践技巧

Java中的雪花算法Snowflake解析与实践技巧

《Java中的雪花算法Snowflake解析与实践技巧》本文解析了雪花算法的原理、Java实现及生产实践,涵盖ID结构、位运算技巧、时钟回拨处理、WorkerId分配等关键点,并探讨了百度UidGen... 目录一、雪花算法核心原理1.1 算法起源1.2 ID结构详解1.3 核心特性二、Java实现解析2.

阅读更多...

MySQL之InnoDB存储引擎中的索引用法及说明

MySQL之InnoDB存储引擎中的索引用法及说明

《MySQL之InnoDB存储引擎中的索引用法及说明》：本文主要介绍MySQL之InnoDB存储引擎中的索引用法及说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录1、背景2、准备3、正篇【1】存储用户记录的数据页【2】存储目录项记录的数据页【3】聚簇索引【4】二

阅读更多...

SpringBoot集成LiteFlow工作流引擎的完整指南

SpringBoot集成LiteFlow工作流引擎的完整指南

《SpringBoot集成LiteFlow工作流引擎的完整指南》LiteFlow作为一款国产轻量级规则引擎/流程引擎,以其零学习成本、高可扩展性和极致性能成为微服务架构下的理想选择,本文将详细讲解Sp... 目录一、LiteFlow核心优势二、SpringBoot集成实战三、高级特性应用1. 异步并行执行2

阅读更多...

LiteFlow轻量级工作流引擎使用示例详解

LiteFlow轻量级工作流引擎使用示例详解

《LiteFlow轻量级工作流引擎使用示例详解》：本文主要介绍LiteFlow是一个灵活、简洁且轻量的工作流引擎,适合用于中小型项目和微服务架构中的流程编排,本文给大家介绍LiteFlow轻量级工... 目录1. LiteFlow 主要特点2. 工作流定义方式3. LiteFlow 流程示例4. LiteF

阅读更多...

SpringBoot集成LiteFlow实现轻量级工作流引擎的详细过程

SpringBoot集成LiteFlow实现轻量级工作流引擎的详细过程

《SpringBoot集成LiteFlow实现轻量级工作流引擎的详细过程》LiteFlow是一款专注于逻辑驱动流程编排的轻量级框架,它以组件化方式快速构建和执行业务流程,有效解耦复杂业务逻辑,下面给大... 目录一、基础概念1.1 组件（Component）1.2 规则（Rule）1.3 上下文（Conte

阅读更多...

Python基于微信OCR引擎实现高效图片文字识别

Python基于微信OCR引擎实现高效图片文字识别

《Python基于微信OCR引擎实现高效图片文字识别》这篇文章主要为大家详细介绍了一款基于微信OCR引擎的图片文字识别桌面应用开发全过程,可以实现从图片拖拽识别到文字提取,感兴趣的小伙伴可以跟随小编一... 目录一、项目概述1.1 开发背景1.2 技术选型1.3 核心优势二、功能详解2.1 核心功能模块2.

阅读更多...

MySQL 存储引擎 MyISAM详解(最新推荐)

MySQL 存储引擎 MyISAM详解(最新推荐)

《MySQL存储引擎MyISAM详解(最新推荐)》使用MyISAM存储引擎的表占用空间很小,但是由于使用表级锁定,所以限制了读/写操作的性能,通常用于中小型的Web应用和数据仓库配置中的只读或主要... 目录mysql 5.5 之前默认的存储引擎️‍一、MyISAM 存储引擎的特性️‍二、MyISAM 的主

阅读更多...

使用雪花算法产生id导致前端精度缺失问题解决方案

使用雪花算法产生id导致前端精度缺失问题解决方案

《使用雪花算法产生id导致前端精度缺失问题解决方案》雪花算法由Twitter提出,设计目的是生成唯一的、递增的ID,下面：本文主要介绍使用雪花算法产生id导致前端精度缺失问题的解决方案,文中通过代... 目录一、问题根源二、解决方案1. 全局配置Jackson序列化规则2. 实体类必须使用Long封装类3.

阅读更多...

Springboot实现推荐系统的协同过滤算法

Springboot实现推荐系统的协同过滤算法

《Springboot实现推荐系统的协同过滤算法》协同过滤算法是一种在推荐系统中广泛使用的算法,用于预测用户对物品（如商品、电影、音乐等）的偏好,从而实现个性化推荐,下面给大家介绍Springboot... 目录前言基本原理算法分类计算方法应用场景代码实现前言协同过滤算法（Collaborativ

阅读更多...

openCV中KNN算法的实现

openCV中KNN算法的实现

《openCV中KNN算法的实现》KNN算法是一种简单且常用的分类算法,本文主要介绍了openCV中KNN算法的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录KNN算法流程使用OpenCV实现KNNOpenCV 是一个开源的跨平台计算机视觉库，它提供了各

阅读更多...