扇贝技术总监丁彦:扇贝在数据治理方面的实践(附 PPT 下载)

2023-10-15 03:59

本文主要是介绍扇贝技术总监丁彦:扇贝在数据治理方面的实践(附 PPT 下载),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 

2020 年 10 月 13 日,在以“数字化 正当潮”为主题的「神策 2020 数据驱动用户大会」现场,扇贝技术总监丁彦发表了《扇贝在数据治理方面的实践》的主题演讲。(文末附 PPT 下载地址)

本文根据其现场演讲整理,主要内容如下:

扇贝成立九年,是国内知名的移动互联网学习平台,现已拥有数千万注册用户,旗下产品包括扇贝单词、扇贝阅读、扇贝听力、扇贝口语、扇贝 Python 课程、Excel 课程、数据分析课程等。  关于数据治理,综合各家之言后,我发现大家一致认为这是一件复杂的事情。今天,我将从扇贝在数据治理方面的实践做简单的讲解,并非严格遵循理论模型,而是侧重实践。

什么是数据治理

数据治理一般包含六个方面,如下图所示:  在扇贝,我们的技术架构是微服务架构,对应产品矩阵和内容矩阵。

扇贝的现实目标及落地策略

在数据治理的过程中,我们常常会看到一些转型期、发展历程悠久的公司面临着各种各样的问题,普遍来说可以归结为历史负担比较重,或者现有架构比较复杂。

扇贝为了使业务更好、更快地发展,将产品和内容整合成几条业务线,不同的业务线由不同的团队负责。但是在整体做数据处理的时候,不得不面对以下几个相互冲突的现实目标:

·各业务数据都是相对独立的,但又是相互打通的。

·各业务数据拥有一定的自由度。保证高效业务线按照自己的发展速度进行,并以“快”带“慢”,拒绝以“慢”牵制“快”。

·各业务数据不能互相影响。

以上目标之间既要打通又要独立,又要保持一定的自由度,在具体执行过程中难度较高。基于此,扇贝提出三大解决措施:

1.数据分级

通常情况下,我们面对整体数据往往无从下手,但在将其做分级之后,处理效率会迅速提升。因此,我把数据分为关键数据、全局数据和一般数据。  关键数据通常面临着质量等要求;全局数据会影响企业整体发展,属于共用数据,要做严格审核与把控;一般数据可以允许其有一定程度上的不准确和混乱。

但是,针对以上三类数据,我们要始终确保它们之间是相互隔离的。

2. 数据治理

我们对于每个类别的数据均采取不同的策略,并且有专业的治理小组牵头推动,监督执行。

在成员构成上,每个治理小组牵头的人一定是企业内部的权威者,成员也必须包含所有与数据生产方利益相关的人,也就是说凡是能产生数据的组织一定要有其代表者加入到治理小组中。

·关键数据的治理小组由直接管理者组成,从生产开始,各业务线、微服务等不能自行生产;

·全局数据很多时候相互影响,因此要做统一管理,我们常用的用户画像就属于全局数据。

举个例子,一个用户的不同标签是由于不同的事件行为产生的,这些不同的事件行为分散在不同的组织里,当「扇贝单词」的用户 A 选择了一本四级单词书,那我们就可以猜测用户 A 大概率是在校大学生,并有 CET-4 考试的需求;那么,从「扇贝口语」等其他组织来看,这个用户标签同样可以适用。

·一般数据自由度较高,管理相对宽松,我们通常每周或隔周用自动化的手段去统计数据宏观的质量情况,如数量、规范等,然后产生报表,并做定期公布。 

3.技术保障

所有的数据终归要做到产品里面,这不仅要求成员有这样的意识,也要求其有这样的能力。因此,扇贝在技术层面做了针对性的措施支撑。详见下图:  ·规划命名空间

每一类数据均有其对应的命名空间,比如一般数据要有隔离化的命名空间,全局数据是跨命名空间的,整体来说,要对所有数据有统一规划。

·封装 SDK

基于神策的数据生产与数据采集,我们会主动做 SDK 的封装,做数据的规范校验与过滤。

·数据网关

我们对每一个数据都要再做一次强验证,如分发、清洗等,尤其是关键数据和部分全局数据;一般数据的数据网关处理常常表现为统计、审计等。 

这篇关于扇贝技术总监丁彦:扇贝在数据治理方面的实践(附 PPT 下载)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/215192

相关文章

Java注解之超越Javadoc的元数据利器详解

《Java注解之超越Javadoc的元数据利器详解》本文将深入探讨Java注解的定义、类型、内置注解、自定义注解、保留策略、实际应用场景及最佳实践,无论是初学者还是资深开发者,都能通过本文了解如何利用... 目录什么是注解?注解的类型内置注编程解自定义注解注解的保留策略实际用例最佳实践总结在 Java 编程

一文教你Python如何快速精准抓取网页数据

《一文教你Python如何快速精准抓取网页数据》这篇文章主要为大家详细介绍了如何利用Python实现快速精准抓取网页数据,文中的示例代码简洁易懂,具有一定的借鉴价值,有需要的小伙伴可以了解下... 目录1. 准备工作2. 基础爬虫实现3. 高级功能扩展3.1 抓取文章详情3.2 保存数据到文件4. 完整示例

使用Java将各种数据写入Excel表格的操作示例

《使用Java将各种数据写入Excel表格的操作示例》在数据处理与管理领域,Excel凭借其强大的功能和广泛的应用,成为了数据存储与展示的重要工具,在Java开发过程中,常常需要将不同类型的数据,本文... 目录前言安装免费Java库1. 写入文本、或数值到 Excel单元格2. 写入数组到 Excel表格

在 Spring Boot 中实现异常处理最佳实践

《在SpringBoot中实现异常处理最佳实践》本文介绍如何在SpringBoot中实现异常处理,涵盖核心概念、实现方法、与先前查询的集成、性能分析、常见问题和最佳实践,感兴趣的朋友一起看看吧... 目录一、Spring Boot 异常处理的背景与核心概念1.1 为什么需要异常处理?1.2 Spring B

python处理带有时区的日期和时间数据

《python处理带有时区的日期和时间数据》这篇文章主要为大家详细介绍了如何在Python中使用pytz库处理时区信息,包括获取当前UTC时间,转换为特定时区等,有需要的小伙伴可以参考一下... 目录时区基本信息python datetime使用timezonepandas处理时区数据知识延展时区基本信息

Qt实现网络数据解析的方法总结

《Qt实现网络数据解析的方法总结》在Qt中解析网络数据通常涉及接收原始字节流,并将其转换为有意义的应用层数据,这篇文章为大家介绍了详细步骤和示例,感兴趣的小伙伴可以了解下... 目录1. 网络数据接收2. 缓冲区管理(处理粘包/拆包)3. 常见数据格式解析3.1 jsON解析3.2 XML解析3.3 自定义

SpringMVC 通过ajax 前后端数据交互的实现方法

《SpringMVC通过ajax前后端数据交互的实现方法》:本文主要介绍SpringMVC通过ajax前后端数据交互的实现方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价... 在前端的开发过程中,经常在html页面通过AJAX进行前后端数据的交互,SpringMVC的controll

Pandas统计每行数据中的空值的方法示例

《Pandas统计每行数据中的空值的方法示例》处理缺失数据(NaN值)是一个非常常见的问题,本文主要介绍了Pandas统计每行数据中的空值的方法示例,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是空值?为什么要统计空值?准备工作创建示例数据统计每行空值数量进一步分析www.chinasem.cn处

如何使用 Python 读取 Excel 数据

《如何使用Python读取Excel数据》:本文主要介绍使用Python读取Excel数据的详细教程,通过pandas和openpyxl,你可以轻松读取Excel文件,并进行各种数据处理操... 目录使用 python 读取 Excel 数据的详细教程1. 安装必要的依赖2. 读取 Excel 文件3. 读

Spring Boot 整合 SSE的高级实践(Server-Sent Events)

《SpringBoot整合SSE的高级实践(Server-SentEvents)》SSE(Server-SentEvents)是一种基于HTTP协议的单向通信机制,允许服务器向浏览器持续发送实... 目录1、简述2、Spring Boot 中的SSE实现2.1 添加依赖2.2 实现后端接口2.3 配置超时时