数据湖十年风雨路,云服务商缘何脱颖而出

2023-10-22 22:40

本文主要是介绍数据湖十年风雨路,云服务商缘何脱颖而出,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

数据湖,是一个并不新颖却越来越被用户看重的名词。

从2010年Pentaho公司的创始人兼首席技术官詹姆斯·狄克逊(James Dixon)首次提出数据湖的概念开始,数据湖十年发展之路可谓是兜兜转转、起起伏伏。在这期间,既有开源厂商们提出的各种营销理念,也有传统存储厂商打造的各类解决方案,更有业界对于数据湖带来的数据沼泽、数据价值探索等问题的深入思考。

时至如今,数据湖虽然经历了各种各样的“挫折”,但是数据湖在数字化时代给用户带来的价值已经愈发清晰。而率先帮助用户走出数据湖价值落地之路的,不是开源厂商,也不是传统存储厂商,恰恰是以AWS为代表的云服务提供商们。

这背后有何缘由?这一切还得从数据湖的本质谈起。

数据湖的价值凸显

维基百科对于数据湖的定义是:“Data Lake是一个以原始格式存储数据的存储库或系统。它按原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据、非结构化数据以及二进制数据等。”

数据湖最大的价值在于可以帮助用户梳理清楚从数据存储、数据汇聚到数据挖掘这些过程。比如,相比于数据仓库对于数据协作有规则限制,数据湖对于数据写入没有限制,可以更容易的收集数据;数据湖可以汇聚来自各种数据源的数据,并进行数据拉通,从而消除数据孤岛的问题;而数据湖中存放着最原始的数据则更加有利于数据价值的挖掘。

千万不要小看数据湖所能完成的这些数据处理过程。这些都是用户们在数字化时代发挥数据价值所必不可少的基础。时至今日,数据其实已经成为数字化时代的一种最为重要的生产资料,数据正在加速重塑企业与组织的生产、经营、销售、服务等流程,就如AWS首席云计算企业战略顾问张侠所指出的:“在当今企业中,数据流就是企业的血液流,企业的数字化转型很重要的一个方向就是把数字化的资产好好利用起来。”

数据湖十年风雨路,AWS缘何脱颖而出

数据湖成为大势所趋

与此同时,数据湖在过去十年并不缺乏产品与解决方案,为何数据湖失败的案例依然不少,为何又是以AWS为代表的云服务提供商们率先走在数据湖解决方案落地的最前沿?

事实上,作为很早推动数据湖服务的公司,AWS的数据湖解决方案成功并不是偶然。首先,Amazon作为全球最大的互联网公司之一,其数据规模、数据复杂度、数据处理难度、数据价值挖掘在业界无出其右,由于背靠Amazon,AWS数据湖解决方案天然就得到了不断的历练,比如Amazon内部一个数据湖部署--Galaxy,就存储了超过50PB的数据量,每天进行着多达60万的数据分析任务。

其次,AWS数据湖在产品技术层面进行了持续的提升与完善,其产品组合的成熟度和丰富程度走在了业界的前列。举个例子,大部分数据湖解决方案都是基于开源Hadoop的,但之前Hadoop集群的计算和存储紧耦合架构,使得数据湖架构的扩展成本高、效率低;而AWS在构建数据湖解决方案时候,很重要的一个选择就是让计算与存储分离,在存储上采用S3对象存储服务,从而让数据湖解决方案可以更好地应用在用户业务领域。

另外,AWS作为云计算市场的龙头,其公有云的环境也有利于数据湖解决方案的部署,在过去十年中为多个不同行业、不同规模的用户提供相关的数据湖服务,积累了丰富的用户实践经验。

在产品、解决方案以及用户实践上的领先其实就是AWS在数据湖领域脱颖而出的秘诀所在。

十年之后,AWS描绘出数据湖全景图

从十年前的概念到如今被越来越多行业用户所认同和采用,数据湖如今不再只是一个名词,它更代表着一种进化,它是过去十年数字化驱动下,用户在数据层面的需求、技术、产品不断进化的一个缩影。

过去十年移动化、社交化带来了数据指数级增长、数据来源广泛化、数据类型多元化,而像5G、物联网、边缘计算的兴起,只会加剧数据应用的趋势,并且会让现代数据应用的复杂性进一步提升,这恰恰反映出用户过去十年对数据应用的需求不断驱动着数据湖走向落地。

在技术层面来看,云计算、大数据以及人工智能具备天然融合在一起的属性,云计算无疑是过去十年对整个IT产业界带来最大变革的技术,它的弹性、灵活为数据湖带来了坚实的基础;而人工智能在过去几年取得突破性的发展,使之成为驱动数据湖发展的最大驱动力之一。

而过去十年也是数据湖产品与解决方案不断走向成熟的十年。像AWS这样的供应商已经逐步打造出非常全面与完善的数据湖解决方案,可以涵盖从数据收集、汇聚到分析、应用、可视化等方方面面。“数据湖从2014年进入了发展的第二个阶段。以AWS为例,围绕数据湖相关的技术、产品已经基本成熟。”张侠如是说。

根据介绍,AWS数据湖平台包括了数据仓库、大数据处理、交互查询、运营分析、数据交换、可视化、实时分析、推荐、预测分析。事实上,AWS这种全面的数据湖生态完整覆盖了数据湖的数据收集、存储、分析、应用四个阶段,并且这些产品、工具以及服务彼此之间并不是孤立的,互相配合可以达到更加出色效果,快速、便捷地帮助用户构建起数据湖相关应用。

数据湖十年风雨路,AWS缘何脱颖而出

在AWS 数据湖平台中有很多非常出色的组件,可以帮助用户解决数据湖中典型的挑战。比如,Amazon EMR大数据处理组件,可以在AWS上轻松运行Spark、Hadoop、Hive等大数据分析。EMR解决了开源生态集群部署与维护升级繁杂的痛点,这对于用户快速应用数据湖开源产品与工具大有裨益,

而 Amazon Redshift是一款性能优秀、强大、使用简单、全托管的数据仓库服务,可以轻松进行大规模并行处理,支持TB级规模数据的扩展,可以通过Spectrum引起将查询扩展到Amazon S3,与数据湖集成可以进行EB级的数据湖分析。

其他像Amazon Kinesis、AWS Lake Formation、Amazon Aurora、Amazon S3等都是AWS上深受用户喜欢的产品与服务。张侠认为:“数据湖在云计算时代得以快速发展,它发展到现在已经包含了所有的数据库、数据仓库等服务,是企业数据体系的基础。数据湖其实比国内流行的数据中台更加全面,任何想构建数据中台的企业其实都可以在AWS找到全面的解决方案。”

多款新品落地,AWS加速中国数据湖应用

在中国市场,各个行业用户对于数据湖也是经历了一个从认知到认可的过程。张侠坦言,当前中国市场的数据湖应用依然处于早期阶段,整个市场有着非常大的潜力。

中国数据湖市场之所以是一个重要且广阔的市场,无外乎三点:

首先,中国对于数字经济的重视程度超乎想象,从国家政策还是企业自身都对于发展数字经济有着广泛的共识,数字经济加速推动了各个行业的数字化进程。根据IDC《数据时代2025》白皮书预测,中国数据量预计在未来7年将每年平均增长30%,位居世界第一,随之而来的就是对于数据存储、汇聚、分析越来越多的需求。

其次,在经历了多年的“企业上云”之后,各行各业对于云计算的认知和认可已经形成,在企业加速上云这个过程中,数据湖作为与云计算天然紧密联系在一起的应用,其实已经具备了非常好的基础设施环境,用户在上云之后逐步采用数据湖服务也是顺势而为。

再次,中国市场在5G、人工智能、物联网等领域的步伐快速,尤其是5G商用所带来的云计算、通信、大数据、人工智能等多项技术走向融合,未来在各个行业中会催生出更多新的现代化数据应用场景,数据湖在这个过程中将会起到重要的支撑作用。

数据湖十年风雨路,AWS缘何脱颖而出

据悉,针对中国市场,AWS近期在中国两个区域陆续上线了多款重磅级的新产品与新服务,其中就包括AWS Glue和Amazon Athena两款跟数据湖相关的服务。张侠透露:“AWS中国之后会陆续上线数据湖相关的产品与服务。随着越来越多服务落地中国,中国区用户可以在短短几天之内完成数据湖的建立工作。”

例如,AWS Glue是数据湖应用中一款非常重要的服务,它可以帮助用户建立起无服务器架构的数据目录和ETL服务,自动发现数据并存储Schema,与AWS上运行的Aurora、RDS、Redshift、S3和数据库引擎天然集成,这将给用户在使用数据湖带来巨大好处。举个例子,用户之前想将数据导入Redshift云数据仓库,之前需要自己写ETL管道,非常不方便,如今有了AWS Glue能够快速完成数据的抽取、转换和加载。

“中国市场的确是到了该好好研究与使用数据湖的阶段了,尤其是5G、边缘计算应用上来之后,在数据层面更应该匹配走数据湖这条路。”张侠最后表示道。

总体而言,数据湖一晃已经走过了十年,从一个概念逐步走向落地。在这十年中,以AWS为代表云服务提供商们真是洞悉了用户在数据湖上的需求,并且围绕数据湖打造出来的一系列全面的产品体系,使得数据湖真正走出了一条价值之路。

十年意味着一个阶段的结束,也预示着下一个阶段的开启。数据湖在未来会有更大的舞台。

这篇关于数据湖十年风雨路,云服务商缘何脱颖而出的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/264049

相关文章

Linux下利用select实现串口数据读取过程

《Linux下利用select实现串口数据读取过程》文章介绍Linux中使用select、poll或epoll实现串口数据读取,通过I/O多路复用机制在数据到达时触发读取,避免持续轮询,示例代码展示设... 目录示例代码(使用select实现)代码解释总结在 linux 系统里,我们可以借助 select、

C#使用iText获取PDF的trailer数据的代码示例

《C#使用iText获取PDF的trailer数据的代码示例》开发程序debug的时候,看到了PDF有个trailer数据,挺有意思,于是考虑用代码把它读出来,那么就用到我们常用的iText框架了,所... 目录引言iText 核心概念C# 代码示例步骤 1: 确保已安装 iText步骤 2: C# 代码程

Pandas处理缺失数据的方式汇总

《Pandas处理缺失数据的方式汇总》许多教程中的数据与现实世界中的数据有很大不同,现实世界中的数据很少是干净且同质的,本文我们将讨论处理缺失数据的一些常规注意事项,了解Pandas如何表示缺失数据,... 目录缺失数据约定的权衡Pandas 中的缺失数据None 作为哨兵值NaN:缺失的数值数据Panda

C++中处理文本数据char与string的终极对比指南

《C++中处理文本数据char与string的终极对比指南》在C++编程中char和string是两种用于处理字符数据的类型,但它们在使用方式和功能上有显著的不同,:本文主要介绍C++中处理文本数... 目录1. 基本定义与本质2. 内存管理3. 操作与功能4. 性能特点5. 使用场景6. 相互转换核心区别

python库pydantic数据验证和设置管理库的用途

《python库pydantic数据验证和设置管理库的用途》pydantic是一个用于数据验证和设置管理的Python库,它主要利用Python类型注解来定义数据模型的结构和验证规则,本文给大家介绍p... 目录主要特点和用途:Field数值验证参数总结pydantic 是一个让你能够 confidentl

JAVA实现亿级千万级数据顺序导出的示例代码

《JAVA实现亿级千万级数据顺序导出的示例代码》本文主要介绍了JAVA实现亿级千万级数据顺序导出的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 前提:主要考虑控制内存占用空间,避免出现同时导出,导致主程序OOM问题。实现思路:A.启用线程池

SpringBoot分段处理List集合多线程批量插入数据方式

《SpringBoot分段处理List集合多线程批量插入数据方式》文章介绍如何处理大数据量List批量插入数据库的优化方案:通过拆分List并分配独立线程处理,结合Spring线程池与异步方法提升效率... 目录项目场景解决方案1.实体类2.Mapper3.spring容器注入线程池bejsan对象4.创建

PHP轻松处理千万行数据的方法详解

《PHP轻松处理千万行数据的方法详解》说到处理大数据集,PHP通常不是第一个想到的语言,但如果你曾经需要处理数百万行数据而不让服务器崩溃或内存耗尽,你就会知道PHP用对了工具有多强大,下面小编就... 目录问题的本质php 中的数据流处理:为什么必不可少生成器:内存高效的迭代方式流量控制:避免系统过载一次性

C#实现千万数据秒级导入的代码

《C#实现千万数据秒级导入的代码》在实际开发中excel导入很常见,现代社会中很容易遇到大数据处理业务,所以本文我就给大家分享一下千万数据秒级导入怎么实现,文中有详细的代码示例供大家参考,需要的朋友可... 目录前言一、数据存储二、处理逻辑优化前代码处理逻辑优化后的代码总结前言在实际开发中excel导入很

MyBatis-plus处理存储json数据过程

《MyBatis-plus处理存储json数据过程》文章介绍MyBatis-Plus3.4.21处理对象与集合的差异:对象可用内置Handler配合autoResultMap,集合需自定义处理器继承F... 目录1、如果是对象2、如果需要转换的是List集合总结对象和集合分两种情况处理,目前我用的MP的版本