我是码客，我是全栈工程师，我为自己代言。

大数据-Flink和iceberg的整合

发表于 2022-10-18 | 分类于 bigdata

Flink和iceberg的整合

前言

版本匹配

推荐

flink-1.11.x
iceberg 0.11.1

https://archive.apache.org/dist/flink/flink-1.11.6/

Iceberg是一种开放的数据湖表格式。您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。

核心能力

Apache Iceberg设计初衷是为了解决Hive数仓上云的问题，经过多年迭代已经发展成为云上构建数据湖服务的表格式标准。关于Apache Iceberg的更多介绍，请参见Apache Iceberg官网。

目前Iceberg提供以下核心能力：

基于HDFS或者对象存储构建低成本的轻量级数据湖存储服务。
实现主流开源计算引擎入湖和分析场景的完善对接。
完善的ACID语义。
支持行级数据变更能力。
支持历史版本回溯。
支持高效的数据过滤。
支持Schema变更（Schema Evolution）。
支持分区布局变更（Partition Evolution）。
支持隐式分区（Hidden Partitioning）。