【数据湖Hudi的概念】Timeline和File Layouts

本文主要是介绍【数据湖Hudi的概念】Timeline和File Layouts，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1. Timeline

Hudi对一个table的各种action都会记录操作的instant time和status。对一系列的instant time按发生的先后顺序排列，形成一个timeline

action有以下几种：

commits：对包含一条或多条数据的一次原子性write，进行commit
cleans：后台进程对不需要的老版本files进行删除
delta_commit：对于MergeOnRead类型的table，对包含一条或多条数据的一次原子性write，进行delta commit，数据写入delta log中
compaction：后台进程将一种数据结构转换成另一种数据结构。例如将avro格式的log文件转换成parquet格式的base file。在Hudi内部，compaction是一种特殊的commit
rollback：对于commit或delta commit，如果失败了，会进行rollback
savepoint：标记某个file groups的状态为saved，这样cleaner就不会对这些file groups删除。后面可以在timeline中restore到该savepoint

status有以下几种：

requested：action已经被调度，但是还未初始化
inflight：action正在被执行
completed：action在timeline上已经完成操作

上图说明的是：几条数据的事件时间分别是07:00、08:00、09:00、10:00，存在不同程度的延迟，在10:00开始分别进行commit，timeline是以action的instant time为准，incrementally consume也是以timeline为准，数据的分区是以事件时间为准