Apache Iceberg articles

8/12/2025 • EN

Avoiding Metadata Bloat with Snapshot Expiration and Rewriting Manifests

Explains how to manage Apache Iceberg table metadata by expiring old snapshots and rewriting manifests to prevent performance and cost issues.

Apache Iceberg Data Lakehouse Manifest Rewriting Metadata Management Snapshot Expiration

Alex Merced

8/5/2025 • EN

Smarter Data Layout — Sorting and Clustering Iceberg Tables

Explains how to use sorting and Z-order clustering in Apache Iceberg tables to optimize query performance and data layout.

Apache Iceberg Clustering Data Layout Sorting Z Order

Alex Merced

7/29/2025 • EN

Optimizing Compaction for Streaming Workloads in Apache Iceberg

Explains techniques for incremental, non-disruptive compaction in Apache Iceberg tables under continuous streaming data ingestion.

Apache Iceberg Data Compaction Data Lakehouse Incremental Processing Streaming Workloads

Alex Merced

7/22/2025 • EN

The Basics of Compaction — Bin Packing Your Data for Efficiency

Explains data compaction using bin packing in Apache Iceberg to merge small files, improve query performance, and reduce metadata overhead.

Apache Iceberg Bin Packing Data Compaction Data Optimization Spark

Alex Merced

7/18/2025 • EN

Interesting links - July 2025

A monthly roundup of data engineering links covering Apache Iceberg, Kafka, Debezium, Spark, and lakehouse architecture.

Apache Iceberg Data Engineering Data Lakehouse Flink SQL Streaming Data

Robin Moffatt

7/15/2025 • EN

The Cost of Neglect — How Apache Iceberg Tables Degrade Without Optimization

Explains how Apache Iceberg tables degrade without optimization, covering small files, fragmented manifests, and performance impacts.

Apache Iceberg Data Engineering Data Lakehouse Metadata Management Table Optimization

Alex Merced

7/14/2025 • EN

Keeping your Data Lakehouse in Order: Table Maintenance in Apache Iceberg

Explains the importance of table maintenance in Apache Iceberg for data lakehouses, covering metadata and file management.

Apache Iceberg Data Engineering Data Lakehouse Metadata Management Table Maintenance

Robin Moffatt

7/4/2025 • EN

Writing to Apache Iceberg on S3 using Kafka Connect with Glue catalog

A technical guide on using Kafka Connect to write data from Kafka topics to Apache Iceberg tables stored on AWS S3, using the Glue Data Catalog.

Amazon S3 Apache Iceberg AWS Glue Data Integration Kafka Connect

Robin Moffatt

7/3/2025 • EN

How to Discover or Organize Lakehouse & Apache Iceberg Meetups

A guide on how to find, join, and organize community meetups focused on Apache Iceberg and modern data lakehouse architectures.

Apache Iceberg Data Communities Data Lakehouse Meetup Organization Slack

Alex Merced

6/27/2025 • EN

Interesting links - June 2025

A monthly roundup of tech links covering data lakehouses (DuckLake, Iceberg), Kafka, event streaming, and stream processing developments.

Apache Iceberg Data Lakehouse Duckdb Kafka Open Table Formats

Robin Moffatt

6/24/2025 • EN

Writing to Apache Iceberg on S3 using Flink SQL with Glue catalog

A technical guide on using Flink SQL to write data to Apache Iceberg tables stored on AWS S3, with metadata managed by the AWS Glue Data Catalog.

Amazon S3 Apache Iceberg AWS Glue Data Catalog Flink SQL

Robin Moffatt

5/23/2025 • EN

Interesting links - May 2025

A monthly roundup of curated links and articles covering data engineering, Kafka, stream processing, and AI, with top picks highlighted.

Apache Iceberg Data Engineering Data Modeling Kafka Snowflake

Robin Moffatt

5/2/2025 • EN

Introduction to Data Engineering Concepts | Batch Processing Fundamentals

Explains batch processing fundamentals for data engineering, covering concepts, tools, and its ongoing relevance in data workflows.

Apache Iceberg Batch Processing Data Engineering Data Pipelines Data Workflows

Alex Merced

5/2/2025 • EN

Introduction to Data Engineering Concepts | Data Warehousing Fundamentals

An introduction to data warehousing concepts, covering architecture, components, and performance optimization for analytical workloads.

Apache Iceberg Data Architecture Data Engineering Data Warehousing performance optimization

Alex Merced

5/2/2025 • EN

Introduction to Data Engineering Concepts | What is Data Engineering?

An introductory guide to data engineering, explaining its role, key concepts, and how it differs from data science in the modern data ecosystem.

Apache Iceberg Data Engineering Data Infrastructure Data Pipelines Data Warehouse

Alex Merced

5/2/2025 • EN

Introduction to Data Engineering Concepts | Data Quality and Validation

Explores the importance of data quality and validation in data engineering, covering key dimensions and tools for reliable pipelines.

Apache Iceberg Data Engineering Data Pipelines Data Quality Data Validation

Alex Merced

5/2/2025 • EN

Introduction to Data Engineering Concepts | Metadata, Lineage, and Governance

Explains core data engineering concepts: metadata, data lineage, and governance, and their importance for scalable, compliant data systems.

Apache Iceberg Data Engineering Data Governance Data Lineage metadata

Alex Merced

5/2/2025 • EN

Introduction to Data Engineering Concepts | Storage Formats and Compression

Explains the importance of data storage formats and compression for performance and cost in large-scale data engineering systems.

Apache Iceberg Columnar Storage compression Data Engineering Storage Formats

Alex Merced

5/2/2025 • EN

Introduction to Data Engineering Concepts | Building Scalable Pipelines

Explores core principles of scalable data engineering, including parallelism, minimizing data movement, and designing adaptable pipelines for growing data volumes.

Apache Iceberg Data Architecture Data Engineering parallelism Scalable Pipelines

Alex Merced

5/2/2025 • EN

Introduction to Data Engineering Concepts | Data Lakes Explained

Explains data lakes, their key characteristics, and how they differ from data warehouses in modern data architecture.

Apache Iceberg cloud storage Data Architecture Data Engineering Data Lakes

Alex Merced

Apache Iceberg Articles

Avoiding Metadata Bloat with Snapshot Expiration and Rewriting Manifests

Smarter Data Layout — Sorting and Clustering Iceberg Tables

Optimizing Compaction for Streaming Workloads in Apache Iceberg

The Basics of Compaction — Bin Packing Your Data for Efficiency

Interesting links - July 2025

The Cost of Neglect — How Apache Iceberg Tables Degrade Without Optimization

Keeping your Data Lakehouse in Order: Table Maintenance in Apache Iceberg

Writing to Apache Iceberg on S3 using Kafka Connect with Glue catalog

How to Discover or Organize Lakehouse & Apache Iceberg Meetups

Interesting links - June 2025

Writing to Apache Iceberg on S3 using Flink SQL with Glue catalog

Interesting links - May 2025

Introduction to Data Engineering Concepts | Batch Processing Fundamentals

Introduction to Data Engineering Concepts | Data Warehousing Fundamentals

Introduction to Data Engineering Concepts | What is Data Engineering?

Introduction to Data Engineering Concepts | Data Quality and Validation

Introduction to Data Engineering Concepts | Metadata, Lineage, and Governance

Introduction to Data Engineering Concepts | Storage Formats and Compression

Introduction to Data Engineering Concepts | Building Scalable Pipelines

Introduction to Data Engineering Concepts | Data Lakes Explained

Select Language