Microsoft、Google、Facebook的erasure code技术进展及系统分析

2023-11-02 16:38

本文主要是介绍Microsoft、Google、Facebook的erasure code技术进展及系统分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


http://blog.sina.com.cn/s/blog_999d1f4c0101e160.html


数据规模庞大(目前google、淘宝等存储的大数据规模以PB为单位)、大数据增长速度远超过摩尔定律,如何利用有限存储资源满足迅速膨胀的存储需求成为大数据时代存储技术面临的一项重大挑战。多副本策略在满足存储可靠、优化数据读性能同时也不可避免地造成存储资源利用率低的缺陷。erasure code编码存储策略在满足和多副本同样可靠性前提下,可以达到更高的存储资源利用率。

当前,Microsoft、Google、Facebook、Amazon、淘宝等互联网巨头早已开始研究erasure code编码存储技术,并将其实用各自主流存储系统中,本文将分析比较 Microsoft、Google、Facebook的erasure code编码技术及系统如下:
Google RS(6,3) in  GFS II ( Colossus)
Microsoft、Google、Facebook的erasure <wbr>code技术进展及系统分析
Google GFS II中采用了最基本的RS(6,3)编码,将一个待编码数据单元(Data Unit)分为6个data block, 再添加3个parity block,最多可容包括parity blocks在内的任意3个数据块错误。存储的space overhead 为(6+3)/6 = 1.5x.数据恢复的网络I/O开销为:恢复任何一个数据块需要6次I/O,通过网络传输6个数据block.
Microsoft:erasure code in WAS(Windows Azure Storage)
Microsoft、Google、Facebook的erasure <wbr>code技术进展及系统分析
为减少数据恢复时的网络I/O,微软采用了如上LRC编码策略,其核心思想为:将校验块(parity block)分为全局校验块(global parity)、局部校验块(local reconstruction parity).微软LRC(12,2,2)编码将一个待编码数据块分为12个data blocks,并进一步将这12个data blocks平均分为2个groups,每个group包括6个data blocks.为每个data group分别计算出一个local parity,以及所有12个data blocks计算出2个global parities.当发生任何一个数据块错误时,恢复代价由传统RS(12,4)编码的12(通过网络传输的数据块数量),变为6,恢复过程的网络I/O开销减半。Microsoft 以上LRC编码的space overhead为(12+2+2)/12 = 1.33x
Facebook:从RS(10,4)到LRC(10,6,5)
Microsoft、Google、Facebook的erasure <wbr>code技术进展及系统分析
RS(10,4)编码是Facebook HDFS RAID的早期编码方式,如上图所示。将每个待编码Data Unit均分为10个data block, 后面添加4个校验的parities.以上编码方式的space overhead为(10+4)/10 = 1.4x,发生任何一个数据块错误的恢复代价为10,即发生任意一个块错误需要10次I/O操作,从网络传输的数据量为10个数据块。
同样为减少数据恢复的网络I/O,Facebook于VLDB 2013发表名为“XORing Elephants”的LRC编码方法如下:
Microsoft、Google、Facebook的erasure <wbr>code技术进展及系统分析
除了在原先的10个data blocks之后添加4个parities外,还将10个data blocks均分为2组,每组单独计算出一个局部校验块(Parity),将数据恢复代价由原来的10降低为5.即恢复任何一个数据块错误只需要进行5次网络I/O,从网络传输5个数据块。此种编码方式的space overhead 为(10+4+2)/10 = 1.6x.
以上erasure code编码技术无疑对存储空间利用率带来很大提升,但由于引入额外的编码、解码运算,对分布式计算本身会造成一定程度的性能损失。由于当前的编码技术还未从根本上解决降低性能损失,目前erasure code还仅适用于对冷数据的离线处理阶段。LRC编码由于减少了网络I/O传输的数据量,参与数据恢复运算的数据量也随之减半,恢复过程的时间开销减半,却是以牺牲可靠性和空间利用率为代价。如何从根本上降低erasure code带来的performance overhead,使得编码存储技术得以真正大量适用,将为大数据存储带来不容质疑的重大意义。



这篇关于Microsoft、Google、Facebook的erasure code技术进展及系统分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/331886

相关文章

Java中的登录技术保姆级详细教程

《Java中的登录技术保姆级详细教程》:本文主要介绍Java中登录技术保姆级详细教程的相关资料,在Java中我们可以使用各种技术和框架来实现这些功能,文中通过代码介绍的非常详细,需要的朋友可以参考... 目录1.登录思路2.登录标记1.会话技术2.会话跟踪1.Cookie技术2.Session技术3.令牌技

Web技术与Nginx网站环境部署教程

《Web技术与Nginx网站环境部署教程》:本文主要介绍Web技术与Nginx网站环境部署教程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、Web基础1.域名系统DNS2.Hosts文件3.DNS4.域名注册二.网页与html1.网页概述2.HTML概述3.

Java使用WebView实现桌面程序的技术指南

《Java使用WebView实现桌面程序的技术指南》在现代软件开发中,许多应用需要在桌面程序中嵌入Web页面,例如,你可能需要在Java桌面应用中嵌入一部分Web前端,或者加载一个HTML5界面以增强... 目录1、简述2、WebView 特点3、搭建 WebView 示例3.1 添加 JavaFX 依赖3

SpringBoot3实现Gzip压缩优化的技术指南

《SpringBoot3实现Gzip压缩优化的技术指南》随着Web应用的用户量和数据量增加,网络带宽和页面加载速度逐渐成为瓶颈,为了减少数据传输量,提高用户体验,我们可以使用Gzip压缩HTTP响应,... 目录1、简述2、配置2.1 添加依赖2.2 配置 Gzip 压缩3、服务端应用4、前端应用4.1 N

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

Python中随机休眠技术原理与应用详解

《Python中随机休眠技术原理与应用详解》在编程中,让程序暂停执行特定时间是常见需求,当需要引入不确定性时,随机休眠就成为关键技巧,下面我们就来看看Python中随机休眠技术的具体实现与应用吧... 目录引言一、实现原理与基础方法1.1 核心函数解析1.2 基础实现模板1.3 整数版实现二、典型应用场景2

Python实现Microsoft Office自动化的几种方式及对比详解

《Python实现MicrosoftOffice自动化的几种方式及对比详解》办公自动化是指利用现代化设备和技术,代替办公人员的部分手动或重复性业务活动,优质而高效地处理办公事务,实现对信息的高效利用... 目录一、基于COM接口的自动化(pywin32)二、独立文件操作库1. Word处理(python-d

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

金融业开源技术 术语

金融业开源技术  术语 1  范围 本文件界定了金融业开源技术的常用术语。 本文件适用于金融业中涉及开源技术的相关标准及规范性文件制定和信息沟通等活动。

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出 在数字化时代,文本到语音(Text-to-Speech, TTS)技术已成为人机交互的关键桥梁,无论是为视障人士提供辅助阅读,还是为智能助手注入声音的灵魂,TTS 技术都扮演着至关重要的角色。从最初的拼接式方法到参数化技术,再到现今的深度学习解决方案,TTS 技术经历了一段长足的进步。这篇文章将带您穿越时