Columnar Storage articles

5/2/2025 • EN

Introduction to Data Engineering Concepts | Storage Formats and Compression

Explains the importance of data storage formats and compression for performance and cost in large-scale data engineering systems.

Apache Iceberg Columnar Storage compression Data Engineering Storage Formats

Alex Merced

10/21/2024 • EN

All About Parquet Part 05 - Compression Techniques in Parquet

Explores compression algorithms in Parquet files, comparing Snappy, Gzip, Brotli, Zstandard, and LZO for storage and performance.

Columnar Storage Data Compression Gzip Parquet Snappy

Alex Merced

10/21/2024 • EN

All About Parquet Part 07 - Metadata in Parquet | Improving Data Efficiency

Explores how metadata in Parquet files improves data efficiency and query performance, covering file, row group, and column-level metadata.

Columnar Storage Data Efficiency metadata Parquet Query Performance

Alex Merced

10/21/2024 • EN

All About Parquet Part 09 - Parquet in Data Lake Architectures

Explores why Parquet is the ideal columnar file format for optimizing storage and query performance in modern data lake and lakehouse architectures.

Apache Iceberg Big Data Columnar Storage Data Lake Parquet

Alex Merced

10/21/2024 • EN

All About Parquet Part 03 - Parquet File Structure | Pages, Row Groups, and Columns

Explains the hierarchical structure of Parquet files, detailing how pages, row groups, and columns optimize storage and query performance.

Big Data Columnar Storage Data Engineering File Format Parquet

Alex Merced

10/21/2024 • EN

All About Parquet Part 01 - An Introduction

An introduction to Apache Parquet, a columnar storage file format for efficient data processing and analytics.

Big Data Columnar Storage Data Engineering Data Format Parquet

Alex Merced

10/21/2024 • EN

All About Parquet Part 02 - Parquet's Columnar Storage Model

Explains Parquet's columnar storage model, detailing its efficiency for big data analytics through faster queries, better compression, and optimized aggregation.

Big Data Analytics Columnar Storage Data Compression Data Format Parquet

Alex Merced

3/15/2024 • EN

1.1 Billion Taxi Rides using DuckDB

A benchmark analysis of DuckDB's performance on a massive 1.1 billion row NYC taxi dataset, comparing it to other database technologies.

Columnar Storage data analysis Duckdb Olap Database Parquet

Mark Litwintschik

2/3/2024 • EN

Columnar vs. Row-based Data Structures in OLTP and OLAP Systems

Compares columnar vs. row-based data structures, explaining their optimal use in OLAP and OLTP systems for performance and scalability.

Columnar Storage data structures Database Design Olap Oltp

Alex Merced

Columnar Storage Articles

Introduction to Data Engineering Concepts | Storage Formats and Compression

All About Parquet Part 05 - Compression Techniques in Parquet

All About Parquet Part 07 - Metadata in Parquet | Improving Data Efficiency

All About Parquet Part 09 - Parquet in Data Lake Architectures

All About Parquet Part 03 - Parquet File Structure | Pages, Row Groups, and Columns

All About Parquet Part 01 - An Introduction

All About Parquet Part 02 - Parquet's Columnar Storage Model

1.1 Billion Taxi Rides using DuckDB

Columnar vs. Row-based Data Structures in OLTP and OLAP Systems

Select Language