Data Compaction articles

9/2/2025 • EN

Hidden Pitfalls — Compaction and Partition Evolution in Apache Iceberg

Explores challenges and best practices for managing partition evolution and compaction in Apache Iceberg to maintain query performance.

Apache Iceberg Data Compaction Data Lakehouse Metadata Management Partition Evolution

Alex Merced

8/26/2025 • EN

Using Iceberg Metadata Tables to Determine When Compaction Is Needed

Explains how to use Apache Iceberg's metadata tables to dynamically trigger data compaction based on file size, manifest health, and snapshot patterns.

Apache Iceberg Data Compaction Data Lakehouse Metadata Tables Table Optimization

Alex Merced

8/19/2025 • EN

Designing the Ideal Cadence for Compaction and Snapshot Expiration

A guide to scheduling compaction and snapshot expiration in Apache Iceberg tables based on workload patterns and infrastructure constraints.

Apache Iceberg Data Compaction Data Engineering Data Lakehouse Snapshot Expiration

Alex Merced

7/29/2025 • EN

Optimizing Compaction for Streaming Workloads in Apache Iceberg

Explains techniques for incremental, non-disruptive compaction in Apache Iceberg tables under continuous streaming data ingestion.

Apache Iceberg Data Compaction Data Lakehouse Incremental Processing Streaming Workloads

Alex Merced

7/22/2025 • EN

The Basics of Compaction — Bin Packing Your Data for Efficiency

Explains data compaction using bin packing in Apache Iceberg to merge small files, improve query performance, and reduce metadata overhead.

Apache Iceberg Bin Packing Data Compaction Data Optimization Spark

Alex Merced

Data Compaction Articles

Hidden Pitfalls — Compaction and Partition Evolution in Apache Iceberg

Using Iceberg Metadata Tables to Determine When Compaction Is Needed

Designing the Ideal Cadence for Compaction and Snapshot Expiration

Optimizing Compaction for Streaming Workloads in Apache Iceberg

The Basics of Compaction — Bin Packing Your Data for Efficiency

Select Language