deltalake专题

DeltaLake在工业大脑的实践分享

作者介绍 占怀旻,花名心渡,阿里云数字产业产研部-工业大脑团队的大数据工程师,目前的工作方向是利用大数据与AI技术,为工业企业客户构建数据中台,支撑工业企业的数字化转型和智能制造落地,用大数据技术来普惠更多的中国制造企业。 前言   随着2020年云栖大工业大脑3.0的发布,工业大脑已经经历了多年的发展。本文将为大家分享,在工业数据中台建设中使用 DeltaLake 的优秀实践,主要包括: 1、

作业帮基于 DeltaLake 的数据湖建设实践

内容框架: 业务背景 问题&痛点 解决方案 基于 DeltaLake 的离线数仓 未来规划 致谢 一、业务背景 作业帮是一家以科技为载体的在线教育公司。目前旗下拥有工具类产品作业帮、作业帮口算,K12直播课产品作业帮直播课,素质教育产品小鹿编程、小鹿写字、小鹿美术等,以及喵喵机等智能学习硬件。作业帮教研中台、教学中台、辅导运营中台、大数据中台等数个业务系统,持续赋能更多素质教

5.数据湖deltalake流表的读写

delta lake和 spark structured streaming可以深度整合。delta lake克服了很多常见的与流系统和文件整合带来的相关限制,如下: 保证了多个流(或并发批处理作业)的仅一次处理。当使用文件作为流源时,可以有效地发现哪些文件是新文件。 1. 作为stream source 1.1 案例讲解 当你的structured streaming使用delta lake作

3.数据湖deltalake之时间旅行及版本管理

浪尖在deltalake第一讲的时候说过,它支持数据版本管理和时间旅行:提供了数据快照,使开发人员能够访问和还原早期版本的数据以进行审核、回滚或重新计算。 1.场景 delta lake的时间旅行,实际上就是利用多版本管理机制,查询历史的delta 表快照。时间旅行有以下使用案例: 1).可以重复创建数据分析,报告或者一些输出(比如,机器学习模型)。这主要是有利于调试和安全审查,尤其是在受管制的