[1] Flink大数据流式处理利剑: 简介

2023-10-30 11:20

文章标签 处理简介 flink 数据流利剑

本文主要是介绍[1] Flink大数据流式处理利剑: 简介，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1. Flink介绍

Flink是Apache基金会下的一个顶级项目，其是一个有状态计算的框架；既能处理无边界的数据流，也能处理有边界的数据流；同时Flink提供不同层次的API，从而满足不同的大数据业务处理场景。

那什么是流，任何类型的数据都可以形成一种事件流，比如，信用卡交易、传感器测量、机器日志、网站或移动应用程序上的用户交互记录，所有这些数据都形成一种流。

那么什么是有边界，什么是无边界；官方网站给了一张图和解释：

无界流
有定义流的开始，但没有定义流的结束。它们会无休止地产生数据。无界流的数据必须持续处理，即数据被摄取后需要立刻处理。我们不能等到所有数据都到达再处理，因为输入是无限的，在任何时候输入都不会完成。处理无界数据通常要求以特定顺序摄取事件，例如事件发生的顺序，以便能够推断结果的完整性。
有界流
有定义流的开始，也有定义流的结束。有界流可以在摄取所有数据后再进行计算。有界流所有数据可以被排序，所以并不需要有序摄取。有界流处理通常被称为批处理

2. Flink的前世今生

Flink的官方代码地址： https://github.com/apache/flink/releases，目前其在github上有17800 颗点赞！
在这里插入图片描述
其版本演化历史如下：

2008：柏林理工大学的一个研究性项目Stratosphere
2014-04：Stratosphere贡献给Apache基金会，成为Apache的孵化项目
2014-12：成为Apache顶级项目
2016-03：Flink 1.0.0
2019年1月8日，阿里巴巴以9000万欧元收购该公司！
2021年4月：最新的版本为Flink 1.13.0
2021年09月29日最新的版本为Flink 1.14.0
2021年12月22日，发布了Apache Flink StateFun Log4j 紧急修复版本

3. Flink特点和应用架构

支持Scala和Java API
支持批流一体
同时支持高吞吐、低延迟、高性能
支持事件时间和处理时间语义，基于事件时间语义能够针对无序事件提供精确、一致的结果；基于处理时间语义能够用在具有极低延迟需求的应用中
支持不同时间语义下的窗口编程
支持有状态计算
支持具有Backpressure功能的持续流模型
提供精确一次（exactly once）的状态一致性保障
Flink在JVM内部实现了自己的内存管理
基于轻量级的分布式快照CheckPoint的容错
支持SavePoint机制，手工触发，适用于升级
支持高可用性配置（无单点失效），与k8s、Yarn、Apache Mesos紧密集成。
提供常见存储系统的连接器：Kafka，Elasticsearch等
提供详细、可自由定制的系统及应用指标（metrics）集合，用于提前定位和响应问题

下面是其一个基本的应用架构例子。
在这里插入图片描述
Flink整个组件的层级如下：

4. 不同框架比较

下图是其与当前业界大数据主流流式计算框架的比较
在这里插入图片描述

5. 案例

阿里巴巴如何利用Flink(Blink)
Saiki使用Flink而不用Spark
Flink在美团的使用
Flink在滴滴的使用
Flink在快手的使用

参考文献

https://github.com/apache/flink
https://flink.apache.org/usecases.html
https://flink.apache.org/flink-architecture.html

这篇关于[1] Flink大数据流式处理利剑: 简介的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/307580。 23002807@qq.com

相关文章

Python实现批量CSV转Excel的高性能处理方案

Python实现批量CSV转Excel的高性能处理方案

《Python实现批量CSV转Excel的高性能处理方案》在日常办公中,我们经常需要将CSV格式的数据转换为Excel文件,本文将介绍一个基于Python的高性能解决方案,感兴趣的小伙伴可以跟随小编一... 目录一、场景需求二、技术方案三、核心代码四、批量处理方案五、性能优化六、使用示例完整代码七、小结一、

阅读更多...

Python中 try / except / else / finally 异常处理方法详解

Python中 try / except / else / finally 异常处理方法详解

《Python中try/except/else/finally异常处理方法详解》：本文主要介绍Python中try/except/else/finally异常处理方法的相关资料,涵... 目录1. 基本结构2. 各部分的作用tryexceptelsefinally3. 执行流程总结4. 常见用法（1）多个e

阅读更多...

PHP应用中处理限流和API节流的最佳实践

PHP应用中处理限流和API节流的最佳实践

《PHP应用中处理限流和API节流的最佳实践》限流和API节流对于确保Web应用程序的可靠性、安全性和可扩展性至关重要,本文将详细介绍PHP应用中处理限流和API节流的最佳实践,下面就来和小编一起学习... 目录限流的重要性在 php 中实施限流的最佳实践使用集中式存储进行状态管理（如 Redis）采用滑动

阅读更多...

MyBatis-plus处理存储json数据过程

MyBatis-plus处理存储json数据过程

《MyBatis-plus处理存储json数据过程》文章介绍MyBatis-Plus3.4.21处理对象与集合的差异：对象可用内置Handler配合autoResultMap,集合需自定义处理器继承F... 目录1、如果是对象2、如果需要转换的是List集合总结对象和集合分两种情况处理，目前我用的MP的版本

阅读更多...

Java Stream 并行流简介、使用与注意事项小结

Java Stream 并行流简介、使用与注意事项小结

《JavaStream并行流简介、使用与注意事项小结》Java8并行流基于StreamAPI,利用多核CPU提升计算密集型任务效率,但需注意线程安全、顺序不确定及线程池管理,可通过自定义线程池与C... 目录1. 并行流简介特点：2. 并行流的简单使用示例：并行流的基本使用3. 配合自定义线程池示

阅读更多...

Python自动化处理PDF文档的操作完整指南

Python自动化处理PDF文档的操作完整指南

《Python自动化处理PDF文档的操作完整指南》在办公自动化中,PDF文档处理是一项常见需求,本文将介绍如何使用Python实现PDF文档的自动化处理,感兴趣的小伙伴可以跟随小编一起学习一下... 目录使用pymupdf读写PDF文件基本概念安装pymupdf提取文本内容提取图像添加水印使用pdfplum

阅读更多...

C# LiteDB处理时间序列数据的高性能解决方案

C# LiteDB处理时间序列数据的高性能解决方案

《C#LiteDB处理时间序列数据的高性能解决方案》LiteDB作为.NET生态下的轻量级嵌入式NoSQL数据库,一直是时间序列处理的优选方案,本文将为大家大家简单介绍一下LiteDB处理时间序列数... 目录为什么选择LiteDB处理时间序列数据第一章：LiteDB时间序列数据模型设计1.1 核心设计原则

阅读更多...

基于Redis自动过期的流处理暂停机制

基于Redis自动过期的流处理暂停机制

《基于Redis自动过期的流处理暂停机制》基于Redis自动过期的流处理暂停机制是一种高效、可靠且易于实现的解决方案,防止延时过大的数据影响实时处理自动恢复处理,以避免积压的数据影响实时性,下面就来详... 目录核心思路代码实现1. 初始化Redis连接和键前缀2. 接收数据时检查暂停状态3. 检测到延时过

阅读更多...

PostgreSQL简介及实战应用

PostgreSQL简介及实战应用

《PostgreSQL简介及实战应用》PostgreSQL是一种功能强大的开源关系型数据库管理系统,以其稳定性、高性能、扩展性和复杂查询能力在众多项目中得到广泛应用,本文将从基础概念讲起,逐步深入到高... 目录前言1. PostgreSQL基础1.1 PostgreSQL简介1.2 基础语法1.3 数据库

阅读更多...

Java利用@SneakyThrows注解提升异常处理效率详解

Java利用@SneakyThrows注解提升异常处理效率详解

《Java利用@SneakyThrows注解提升异常处理效率详解》这篇文章将深度剖析@SneakyThrows的原理,用法,适用场景以及隐藏的陷阱,看看它如何让Java异常处理效率飙升50%,感兴趣的... 目录前言一、检查型异常的“诅咒”：为什么Java开发者讨厌它1.1 检查型异常的痛点1.2 为什么说

阅读更多...