HashData助力中科院打造地球大数据

2023-12-23 08:50

本文主要是介绍HashData助力中科院打造地球大数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

请添加图片描述
背景

中国科学院“地球大数据科学工程”A类战略性先导科技专项(简称“地球大数据专项”)于2018年1月1日正式立项。该工程以建成具有全球影响力、国际化、开放式的国际地球大数据科学中心为目标,致力于推动并实现地球大数据技术创新、重大科学发现和一站式全方位宏观决策系统。

地球大数据专项一个典型的应用例子是:定量统计分析黄河三角洲过去40年的变化,包括湿地海岸线、河岸生态系统以及土地利用类型等。传统的做法是派遣科研人员到实地考察,这是几乎不能完成的任务。我们希望通过该工程,基于对地检测卫星过去40年拍摄到的黄河三角洲的遥感图片,利用深度学习和海量地理数据处理技术,精确地量化具体变化指标。

产品形态上,地球大数据专项的目标是打造中国版的“谷歌地球”,设置了包括地球大数据卫星、数据一路一带、全景美丽中国和大数据云服务平台等在内的共9个子项目。其中,大数据云服务平台是整个专项的技术基座,通过将资源、环境、生物、人文、生态等领域的数据汇聚起来,构建一个数据存储、分析处理和共享平台,并在此基础上提供数字地球科学服务。

面临挑战

作为一个雄心勃勃的项目技术基座,地球大数据云服务平台自然面临着一系列技术挑战:
数据规模庞大,结构众多:
• 支持38PB基础存储量,每年新增5PB数据;
• 对地观测、地面观测、基础地理等多种业务模式;
• 涵盖结构化、半结构化、非结构化格式;
应用场景广泛:
• 支持33个院系、129个单位使用;
• 涵盖资源、环境、生物、生态多个领域,不同学科的融合;
科学计算特性:
• 满足高性能计算需求及数据格式多样化;
数据存储和访问:
• 支持100+PB的数据规模及灵活访问方式;
共享与隔离:
• 方便数据共享及计算性能的隔离;

解决方案

作为地球大数据专项的外协单位,我们与中科院网络中心、中科院计算所一起参与规划建设了大数据云服务平台,利用HashData数据仓库为整个工程提供海量数据的存储和处理分析能力。大数据云平台整体架构图如下:
请添加图片描述通过集成到地球大数据云平台的HashData数据仓库服务,科研院所单位用户可以在几分钟内创建启动一个数据仓库,规模从几个到上百个节点,数据加载后立即开始数据分析任务。随着数据量和分析工作负载的变化,还可以动态地对数据仓库集群进行弹性伸缩。同时,由于是完全托管的云服务,HashData管理控制台承担了所有的集群资源配置、数据备份、持续监控、网络迁移、故障恢复、高可用和升级等纷繁复杂、易出错的运维工作,让用户(特别是考虑到地球大数据云平台的主要用户是科研人员,而不是IT人员)专注于科研数据分析上。

其次,对象存储作为整个地球大数据云平台的数据持久层,能够以非常低的成本存储提供海量存储能力,包括结构化、半结构化和非结构化数据,有很高的可用性和持久性,满足专项日益增长的数据量。结合HashData湖仓一体的能力,用户可以通过统一的SQL接口对各种数据进行高性能的融合分析处理。

再次,借助HashData数据仓库元数据、计算和存储三者分离、多集群统一数据存储的架构(参考文章《HashData多集群共享统一存储架构》),每个科研院系单位都可以创建自己的计算集群,确保计算性能隔离的同时,又能够实现数据在不同院系之间的充分共享,加速科研进度。

最后,通过基于HashData的MPP计算引擎实现分布式PostGIS功能,进行矢量和栅格数据处理,架构示意如下:
请添加图片描述
整体实现了分布式GIS空间数据处理, 支持矢量、栅格数据分布式加载入库,并在库内针对空间数据建立索引, 栅格数据入库可自动切割瓦片,根据瓦片边界建立索引。在内部实现的GIS空间数据高效分布式计算,支持空间范围查询、矢量数据叠加分析。

总结

HashData数据仓库云服务已于2020年12月30号在地球大数据云平台上线,可为130余家科研院所提供大数据分析服务。除了为大数据云平台包括地球共享服务系统、CASEarth Databank系统和数据丝路地球大数据系统等其它系统提供支撑外,同时还为科学院内部院系提供通用的数据仓库服务,用于多种应用场景,包括寒旱所的地表观测数据处理,遥感所的植被分布统计,和地质所的地质勘探数据分析。在地理信息数据处理性能方面,相对于之前的解决方案,HashData数据仓库也有很大的提升,例如数据加载提速近100倍,栅格数据叠加分析提速近70倍。

随着地球大数据云平台的逐步成熟稳定,HashData数据仓库将支撑越来越多的数据存储、分析和共享任务,为中科院数字地球科学研究做出更多贡献。

这篇关于HashData助力中科院打造地球大数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/527439

相关文章

SQL Server修改数据库名及物理数据文件名操作步骤

《SQLServer修改数据库名及物理数据文件名操作步骤》在SQLServer中重命名数据库是一个常见的操作,但需要确保用户具有足够的权限来执行此操作,:本文主要介绍SQLServer修改数据... 目录一、背景介绍二、操作步骤2.1 设置为单用户模式(断开连接)2.2 修改数据库名称2.3 查找逻辑文件名

canal实现mysql数据同步的详细过程

《canal实现mysql数据同步的详细过程》:本文主要介绍canal实现mysql数据同步的详细过程,本文通过实例图文相结合给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的... 目录1、canal下载2、mysql同步用户创建和授权3、canal admin安装和启动4、canal

使用SpringBoot整合Sharding Sphere实现数据脱敏的示例

《使用SpringBoot整合ShardingSphere实现数据脱敏的示例》ApacheShardingSphere数据脱敏模块,通过SQL拦截与改写实现敏感信息加密存储,解决手动处理繁琐及系统改... 目录痛点一:痛点二:脱敏配置Quick Start——Spring 显示配置:1.引入依赖2.创建脱敏

详解如何使用Python构建从数据到文档的自动化工作流

《详解如何使用Python构建从数据到文档的自动化工作流》这篇文章将通过真实工作场景拆解,为大家展示如何用Python构建自动化工作流,让工具代替人力完成这些数字苦力活,感兴趣的小伙伴可以跟随小编一起... 目录一、Excel处理:从数据搬运工到智能分析师二、PDF处理:文档工厂的智能生产线三、邮件自动化:

Python数据分析与可视化的全面指南(从数据清洗到图表呈现)

《Python数据分析与可视化的全面指南(从数据清洗到图表呈现)》Python是数据分析与可视化领域中最受欢迎的编程语言之一,凭借其丰富的库和工具,Python能够帮助我们快速处理、分析数据并生成高质... 目录一、数据采集与初步探索二、数据清洗的七种武器1. 缺失值处理策略2. 异常值检测与修正3. 数据

Python使用Tkinter打造一个完整的桌面应用

《Python使用Tkinter打造一个完整的桌面应用》在Python生态中,Tkinter就像一把瑞士军刀,它没有花哨的特效,却能快速搭建出实用的图形界面,作为Python自带的标准库,无需安装即可... 目录一、界面搭建:像搭积木一样组合控件二、菜单系统:给应用装上“控制中枢”三、事件驱动:让界面“活”

pandas实现数据concat拼接的示例代码

《pandas实现数据concat拼接的示例代码》pandas.concat用于合并DataFrame或Series,本文主要介绍了pandas实现数据concat拼接的示例代码,具有一定的参考价值,... 目录语法示例:使用pandas.concat合并数据默认的concat:参数axis=0,join=

C#代码实现解析WTGPS和BD数据

《C#代码实现解析WTGPS和BD数据》在现代的导航与定位应用中,准确解析GPS和北斗(BD)等卫星定位数据至关重要,本文将使用C#语言实现解析WTGPS和BD数据,需要的可以了解下... 目录一、代码结构概览1. 核心解析方法2. 位置信息解析3. 经纬度转换方法4. 日期和时间戳解析5. 辅助方法二、L

基于Python+PyQt5打造一个跨平台Emoji表情管理神器

《基于Python+PyQt5打造一个跨平台Emoji表情管理神器》在当今数字化社交时代,Emoji已成为全球通用的视觉语言,本文主要为大家详细介绍了如何使用Python和PyQt5开发一个功能全面的... 目录概述功能特性1. 全量Emoji集合2. 智能搜索系统3. 高效交互设计4. 现代化UI展示效果

使用Python和Matplotlib实现可视化字体轮廓(从路径数据到矢量图形)

《使用Python和Matplotlib实现可视化字体轮廓(从路径数据到矢量图形)》字体设计和矢量图形处理是编程中一个有趣且实用的领域,通过Python的matplotlib库,我们可以轻松将字体轮廓... 目录背景知识字体轮廓的表示实现步骤1. 安装依赖库2. 准备数据3. 解析路径指令4. 绘制图形关键