Tachyon源码结构分析(三)

2024-06-20 17:58
文章标签 分析 源码 结构 tachyon

本文主要是介绍Tachyon源码结构分析(三),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

发布人:南京大学PASA大数据实验室


前言

在上一篇《Tachyon源码结构分析(二)》中,我们具体分析了Common模块和Client模块的源码结构,本篇接着上一篇内容介绍Master模块的源码结构分析。
 
版本选择
Tachyon目前刚刚发布了新版本0.6.1,最新的开发版仍为0.7.0-SNAPSHOT。本篇我们仍然选择Tachyon-0.6.0版本保持与前两篇同步。

官方链接:Tachyon-0.6.0


Master模块

Master模块是Tachyon的核心模块,负责管理和协调Worker与Client的正常工作。Master保存了Tachyon系统的元数据信息、文件结构、日志和镜像以及所有Worker的状态信息,同时向Client提供了关于元数据的处理操作,包括创建文件、创建表格、删除文件等。Master还提供了基于重计算的丢失文件恢复机制来容错,提供了基于Zookeeper的竞争机制来保证Master节点的健壮性,提供了心跳机制来保证Tachyon系统的可靠性。总的来说,重计算、Zookeeper以及日志和镜像机制都是为了巩固Tachyon的容错性能,我们在后续章节会针对这些核心的机制进行详细的分析。

Master模块的源码包含三个部分,分别为tachyon.mastertachyon.retrytachyon.web。这样划分的原因是tachyon.retrytachyon.web目前都是以tachyon.master包为核心的。tachyon.master包主要实现了Master的核心机制(重计算、心跳、日志和镜像等);tachyon.retry目前为tachyon.master包中MasterClient的连接操作所使用,实现了连接失败后的退避策略;tachyon.web目前都是使用tachyon.master来收集web显示的数据信息。下面按每个包来介绍Master模块具体是如何实现的。


  • tachyon.master包

    tachyon.master包是Master模块的核心,实现了Master的主要功能。该包定义了文件节点的基本结构,实现了日志和镜像机制以及心跳机制,同时定义了依赖关系的具体内容,进一步实现了重计算机制。我们现在来介绍tachyon.master的源码结构。

    从图1可以看出,tachyon.master的源码结构是错综复杂的,各个类之间的关系联系比较紧密。从图中可以看出,JsonObjectImageElementEditLogOperation的基类,抽象出日志和镜像中数据的基本存储单元。ImageElementImageElementType和参数组成,描述了元数据的静态结构(Version、 CheckpointInodeFile、 InodeFolderRawTableDependency);EditLogOperationEditLogOperationType和参数组成,描述了元数据的动态操作(ADD_BLOCKADD_CHECKPOINTCREATE_FILECOMPLETE_FILESET_PINNEDRENAMEDELETE、CREATE_RAW_TABLEUPDATE_RAW_TABLE_METADATACREATE_DEPENDENCY)。ImageElementImage中的元素,EditLogOperationEditLog中的元素,ImageEditLog一起构成JournalImageWriterRawTablesInodeDependencyMasterInfo的基类,定义了写入镜像的基本接口,也就是说InodeDependencyRawTablesMasterInfo都可以将元数据写入到镜像文件。InodeFileInodeFolder继承于Inode,分别为文件和文件夹的索引节点。文件夹的索引节点保存了子文件夹或者子文件的索引节点Id,用于构成文件的树状结构。TachyonMaster是Master节点的入口函数,调用TachyonMastermain函数开启Master的web和数据服务。从图中我们还可以看出MasterInfo是Master节点的核心,它和InodeMasterWorkerInfoRawTablesDependency、RecomputeCommandBlockInfoCounters等都直接相关,向Master服务模块提供大量的数据信息。


     图1. tachyon.master源码结构

     

  • tachyon.retry包

    我们知道当连接网络放生冲突以后,立即重连会导致依然连接冲突的概率很大。该包的功能就是定义一系列退避策略,当连接发生冲突时,退避若干个时间单位以后重新连接,使得冲突的概率最小化。目前该包只定义了一种可用的退避策略,即二进制退避策略,当第i次连接失败以后,连接被延迟0到之间随机的时间单位之后,规避依然冲突的风险。

    该包包含四个类,分别为package-infoRetryPolicySleepingRetryExponentialBackoffRetry。其中RetryPolicy定义了退避策略的接口;SleepingRetry是实现了RetryPolicy接口的抽象类;ExponentialBackoffRetry继承了RetryPolicy


  • tachyon.web包

    Tachyon作为一个分布式内存文件系统,需要向用户提供友好的交互界面使得用户能够随时把握Tachyon当前状态和当前的文件结构。tachyon.web的作用就是为Tachyon网页显示提供必要的数据信息,保证Tachyon状态能够被实时监督。而Master作为主控制节点,它收集了所有文件的元数据信息以及所有从节点的当前状态信息,所以tachyon.web基本都是从Master节点获取实时数据,因而我们把tachyon.web划分为Master模块。(在接下来的版本中,每个Worker节点也开启了web服务,每个Worker节点从本地获取web信息,所以web也可以归为Common模块)

这篇关于Tachyon源码结构分析(三)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1078853

相关文章

Vite 打包目录结构自定义配置小结

《Vite打包目录结构自定义配置小结》在Vite工程开发中,默认打包后的dist目录资源常集中在asset目录下,不利于资源管理,本文基于Rollup配置原理,本文就来介绍一下通过Vite配置自定义... 目录一、实现原理二、具体配置步骤1. 基础配置文件2. 配置说明(1)js 资源分离(2)非 JS 资

Java集合中的链表与结构详解

《Java集合中的链表与结构详解》链表是一种物理存储结构上非连续的存储结构,数据元素的逻辑顺序的通过链表中的引用链接次序实现,文章对比ArrayList与LinkedList的结构差异,详细讲解了链表... 目录一、链表概念与结构二、当向单链表的实现2.1 准备工作2.2 初始化链表2.3 打印数据、链表长

Android 缓存日志Logcat导出与分析最佳实践

《Android缓存日志Logcat导出与分析最佳实践》本文全面介绍AndroidLogcat缓存日志的导出与分析方法,涵盖按进程、缓冲区类型及日志级别过滤,自动化工具使用,常见问题解决方案和最佳实... 目录android 缓存日志(Logcat)导出与分析全攻略为什么要导出缓存日志?按需过滤导出1. 按

创建springBoot模块没有目录结构的解决方案

《创建springBoot模块没有目录结构的解决方案》2023版IntelliJIDEA创建模块时可能出现目录结构识别错误,导致文件显示异常,解决方法为选择模块后点击确认,重新校准项目结构设置,确保源... 目录创建spChina编程ringBoot模块没有目录结构解决方案总结创建springBoot模块没有目录

SpringBoot利用树形结构优化查询速度

《SpringBoot利用树形结构优化查询速度》这篇文章主要为大家详细介绍了SpringBoot利用树形结构优化查询速度,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一个真实的性能灾难传统方案为什么这么慢N+1查询灾难性能测试数据对比核心解决方案:一次查询 + O(n)算法解决

Linux中的HTTPS协议原理分析

《Linux中的HTTPS协议原理分析》文章解释了HTTPS的必要性:HTTP明文传输易被篡改和劫持,HTTPS通过非对称加密协商对称密钥、CA证书认证和混合加密机制,有效防范中间人攻击,保障通信安全... 目录一、什么是加密和解密?二、为什么需要加密?三、常见的加密方式3.1 对称加密3.2非对称加密四、

MySQL中读写分离方案对比分析与选型建议

《MySQL中读写分离方案对比分析与选型建议》MySQL读写分离是提升数据库可用性和性能的常见手段,本文将围绕现实生产环境中常见的几种读写分离模式进行系统对比,希望对大家有所帮助... 目录一、问题背景介绍二、多种解决方案对比2.1 原生mysql主从复制2.2 Proxy层中间件:ProxySQL2.3

python使用Akshare与Streamlit实现股票估值分析教程(图文代码)

《python使用Akshare与Streamlit实现股票估值分析教程(图文代码)》入职测试中的一道题,要求:从Akshare下载某一个股票近十年的财务报表包括,资产负债表,利润表,现金流量表,保存... 目录一、前言二、核心知识点梳理1、Akshare数据获取2、Pandas数据处理3、Matplotl

Oracle查询表结构建表语句索引等方式

《Oracle查询表结构建表语句索引等方式》使用USER_TAB_COLUMNS查询表结构可避免系统隐藏字段(如LISTUSER的CLOB与VARCHAR2同名字段),这些字段可能为dbms_lob.... 目录oracle查询表结构建表语句索引1.用“USER_TAB_COLUMNS”查询表结构2.用“a

python panda库从基础到高级操作分析

《pythonpanda库从基础到高级操作分析》本文介绍了Pandas库的核心功能,包括处理结构化数据的Series和DataFrame数据结构,数据读取、清洗、分组聚合、合并、时间序列分析及大数据... 目录1. Pandas 概述2. 基本操作:数据读取与查看3. 索引操作:精准定位数据4. Group