大数据-Flink和iceberg的整合

前言

版本匹配

推荐

  • flink-1.11.x
  • iceberg 0.11.1

https://archive.apache.org/dist/flink/flink-1.11.6/

Iceberg是一种开放的数据湖表格式。您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务,并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。

核心能力

Apache Iceberg设计初衷是为了解决Hive数仓上云的问题,经过多年迭代已经发展成为云上构建数据湖服务的表格式标准。关于Apache Iceberg的更多介绍,请参见Apache Iceberg官网

目前Iceberg提供以下核心能力:

  • 基于HDFS或者对象存储构建低成本的轻量级数据湖存储服务。
  • 实现主流开源计算引擎入湖和分析场景的完善对接。
  • 完善的ACID语义。
  • 支持行级数据变更能力。
  • 支持历史版本回溯。
  • 支持高效的数据过滤。
  • 支持Schema变更(Schema Evolution)。
  • 支持分区布局变更(Partition Evolution)。
  • 支持隐式分区(Hidden Partitioning)。