【华为数据之道学习笔记】6-3数据服务分类与建设规范

2023-12-21 08:28

本文主要是介绍【华为数据之道学习笔记】6-3数据服务分类与建设规范,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

        数据服务是为了更好地满足用户的数据消费需求而产生的,因此数据消费方的差异是数据服务分类的最关键因素。具体包括两大类:数据集服务和数据API服务。

        1. 数据集服务

      (1)数据集服务定义
比较常见的数据消费者有两类:一类是真实的“人”,一类是“IT系统”。企业越来越强调各业务部门的自我运营,因此产生了大量自助分析消费者,这类消费者就是业务人员,甚至可能是管理者,他们通过各种数据分析工具,直接使用、消费数据。这种情况下,消费者是“访问”某个相对完整的“数据集”,这种消费方式称之为“数据集服务”。
  • 数据集服务最主要的特征是由服务提供方提供相对完整的数据集合,消费方“访问”数据集合,并自行决定接下来的处理逻辑。
  • 数据服务提供方被动地公开数据以供数据消费方检索。
  • 数据服务提供方并不定义数据处理逻辑,但数据和数据处理逻辑仍然由其控制。
  • 数据服务的生命周期即数据访问授权的有效期。
举例来说,数据服务供应方提供信息搜索、查询服务,但并不清楚用户的真实意图,用户可以自由地在服务提供方的地盘上“玩”数据。
(2)数据集服务建设规范
数据集服务主要面向自助分析场景提供相对完整的数据集合,因此所提供的数据主要来自数据底座,包括“数据湖”和“主题联接”。
1)允许将数据湖的同一个业务对象内的一个或多个资产封装为数据服务。
在部分实时性要求极高的场景下,例如,对于某个地区所有销售投标项目的实时状态可视化场景,可以将“投标项目(Proposal)”这个业务对象下的多个逻辑数据实体封装在一起,设计成可以支撑投标的实时可视化的数据服务。
2)允许将数据湖内单个资产及其关联主数据合并封装为数据服务。
在部分实时数据服务需求场景下,需要向用户提供相对完整的主数据或基础数据信息,以便于用户自助分析。例如,某个业务部门可能需要交付项目实施计划的数据服务,以便进行实时监控和指挥。当通过IT系统或应用实现该功能时,只需获取数据湖中原始的事务数据(交付项目实施计划明细),但在自助分析场景下,由于数据服务面对的是具体的业务人员,而业务人员不可能读懂任务ID、区域组织ID等物理层主键或外键,并且没有必要让每个自助分析人员都重复进行共性数据联接,因此可以在数据服务封装时,将必要的数据联接在一起,比如将“任务与任务资源关系”或“任务与区域组织关系”与交付项目实施计划明细合并封装为一个数据集服务。
3)不允许将数据湖中跨业务对象的多个资产合并封装为一个数据服务。
要注意数据服务合并封装的边界,数据服务的本质是将已有数据资产以服务的形式提供给消费者,而不是在服务中创建一个新的数据资产,面向OLAP的数据资产创建应该在数据主题联接完成,这在一定程度上也可以避免出现数据服务大量重复建设的情况。
      当所提供的数据来自于主题联接时,建设规范如下:
1)允许将单个主题联接的数据资产封装为一个或多个数据服务。
数据服务在面对不同消费者的不同需求时,可以适当地拆分为多个数据服务,以便更好地提供给数据消费者,减少冗余数据,提升用户体验。例如,在封装“区域损益明细实际数据”服务时,集团职能部门和具体业务部门的需求可能是不同的,具体业务部门不需要精细到产品L3以下的明细数据。如果把产品L1~L5的所有明细都提供出来,数据量将会以百倍的规模增加,会极大地影响数据分析性能,这显然是不必要的。比较恰当的方式是将两类需求分别封装为不同的数据服务,并确保这些数据服务的数据来源于同一个主题联接数据资产。
2)允许将由多个主题联接数据资产组成的多维模型整体封装为一个数据服务。
在部分情况下,主题联接数据资产并不是以宽表的形式落地,而是以多维模型的形式存在,此时可以将多维模型整体封装为一个数据集服务。例如,可以将“预测多维分析模型”中的“区域组织维表、产品维表、预算事实表”等封装为一个服务,满足区域组织经营管理的需要。
3)不允许将多个主题联接数据资产直接合并封装为一个数据服务。
数据资产之间的联接属于主题联接范畴,应该首先沉淀为公共数据主题联接资产,再封装为服务。

2. 数据API服务定义

数据服务的另外一类消费者是“IT系统”,即面向某个IT系统提供数据事件驱动的“响应”,这种服务的封装方式与前面所提到的数据集不同,称为“数据API服务”。
(1)数据API服务特征
  • 服务提供方“响应”消费方的服务请求,提供执行结果。
  • 数据服务提供方基于随机的数据事件主动地传送数据。
  • 数据服务提供方会基于事件定义数据处理逻辑,由消费方提前订阅并随机触发。
  • 服务的生命周期跟着事件走,事件关闭了,服务就终止了。
例如,华为公司给OBS(Object Storage Service,对象存储服务)提供面向客户的服务能力评估和报价复核服务。
数据API服务是对用户随机数据事件的响应,这个需求往往伴随着用户的某个任务产生,随着任务的结束,整个服务也就完成了。通过数据API服务,用户可以及时地获知任务的协同情况,并基于服务方的反馈结果,做出相应的调整。服务供给方和消费方是协同关系(互操作),而非交接棒关系(交换情报),有效提升了面向协同任务的互操作一致性。
(2)数据API服务VS数据集成服务
数据API服务与传统系统集成相比有非常明显的优势。
  • 供应/消费数据服务: 应用组件间传递的是基于数据服务契约的消息,即传递对数据进行逻辑操作的结果。
  • 高聚合: 订单服务使业务逻辑变得更加集中,易于数据同源管控。
  • 松耦合: 业务逻辑的变化对服务消费方没有直接影响。

这篇关于【华为数据之道学习笔记】6-3数据服务分类与建设规范的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/519254

相关文章

MyBatis-plus处理存储json数据过程

《MyBatis-plus处理存储json数据过程》文章介绍MyBatis-Plus3.4.21处理对象与集合的差异:对象可用内置Handler配合autoResultMap,集合需自定义处理器继承F... 目录1、如果是对象2、如果需要转换的是List集合总结对象和集合分两种情况处理,目前我用的MP的版本

GSON框架下将百度天气JSON数据转JavaBean

《GSON框架下将百度天气JSON数据转JavaBean》这篇文章主要为大家详细介绍了如何在GSON框架下实现将百度天气JSON数据转JavaBean,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录前言一、百度天气jsON1、请求参数2、返回参数3、属性映射二、GSON属性映射实战1、类对象映

C# LiteDB处理时间序列数据的高性能解决方案

《C#LiteDB处理时间序列数据的高性能解决方案》LiteDB作为.NET生态下的轻量级嵌入式NoSQL数据库,一直是时间序列处理的优选方案,本文将为大家大家简单介绍一下LiteDB处理时间序列数... 目录为什么选择LiteDB处理时间序列数据第一章:LiteDB时间序列数据模型设计1.1 核心设计原则

Java+AI驱动实现PDF文件数据提取与解析

《Java+AI驱动实现PDF文件数据提取与解析》本文将和大家分享一套基于AI的体检报告智能评估方案,详细介绍从PDF上传、内容提取到AI分析、数据存储的全流程自动化实现方法,感兴趣的可以了解下... 目录一、核心流程:从上传到评估的完整链路二、第一步:解析 PDF,提取体检报告内容1. 引入依赖2. 封装

MySQL中查询和展示LONGBLOB类型数据的技巧总结

《MySQL中查询和展示LONGBLOB类型数据的技巧总结》在MySQL中LONGBLOB是一种二进制大对象(BLOB)数据类型,用于存储大量的二进制数据,:本文主要介绍MySQL中查询和展示LO... 目录前言1. 查询 LONGBLOB 数据的大小2. 查询并展示 LONGBLOB 数据2.1 转换为十

使用SpringBoot+InfluxDB实现高效数据存储与查询

《使用SpringBoot+InfluxDB实现高效数据存储与查询》InfluxDB是一个开源的时间序列数据库,特别适合处理带有时间戳的监控数据、指标数据等,下面详细介绍如何在SpringBoot项目... 目录1、项目介绍2、 InfluxDB 介绍3、Spring Boot 配置 InfluxDB4、I

Unity新手入门学习殿堂级知识详细讲解(图文)

《Unity新手入门学习殿堂级知识详细讲解(图文)》Unity是一款跨平台游戏引擎,支持2D/3D及VR/AR开发,核心功能模块包括图形、音频、物理等,通过可视化编辑器与脚本扩展实现开发,项目结构含A... 目录入门概述什么是 UnityUnity引擎基础认知编辑器核心操作Unity 编辑器项目模式分类工程

Java整合Protocol Buffers实现高效数据序列化实践

《Java整合ProtocolBuffers实现高效数据序列化实践》ProtocolBuffers是Google开发的一种语言中立、平台中立、可扩展的结构化数据序列化机制,类似于XML但更小、更快... 目录一、Protocol Buffers简介1.1 什么是Protocol Buffers1.2 Pro

Python学习笔记之getattr和hasattr用法示例详解

《Python学习笔记之getattr和hasattr用法示例详解》在Python中,hasattr()、getattr()和setattr()是一组内置函数,用于对对象的属性进行操作和查询,这篇文章... 目录1.getattr用法详解1.1 基本作用1.2 示例1.3 原理2.hasattr用法详解2.

Python实现数据可视化图表生成(适合新手入门)

《Python实现数据可视化图表生成(适合新手入门)》在数据科学和数据分析的新时代,高效、直观的数据可视化工具显得尤为重要,下面:本文主要介绍Python实现数据可视化图表生成的相关资料,文中通过... 目录前言为什么需要数据可视化准备工作基本图表绘制折线图柱状图散点图使用Seaborn创建高级图表箱线图热