前言
版本匹配
推荐
- flink-1.11.x
- iceberg 0.11.1
https://archive.apache.org/dist/flink/flink-1.11.6/
Iceberg是一种开放的数据湖表格式。您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务,并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。
核心能力
Apache Iceberg设计初衷是为了解决Hive数仓上云的问题,经过多年迭代已经发展成为云上构建数据湖服务的表格式标准。关于Apache Iceberg的更多介绍,请参见Apache Iceberg官网。
目前Iceberg提供以下核心能力:
- 基于HDFS或者对象存储构建低成本的轻量级数据湖存储服务。
- 实现主流开源计算引擎入湖和分析场景的完善对接。
- 完善的ACID语义。
- 支持行级数据变更能力。
- 支持历史版本回溯。
- 支持高效的数据过滤。
- 支持Schema变更(Schema Evolution)。
- 支持分区布局变更(Partition Evolution)。
- 支持隐式分区(Hidden Partitioning)。