Parquet articles

11/6/2025 • EN

American Wind Farms

A technical walkthrough of converting the US Wind Turbine Database to Parquet format and analyzing it using tools like GDAL, DuckDB, and QGIS.

data processing Duckdb Gdal Geospatial Parquet

Mark Litwintschik

11/3/2025 • EN

2.7 Billion Buildings

A technical walkthrough of converting the massive OpenBuildingMap dataset (2.7B buildings) into a columnar Parquet format for efficient cloud analysis.

aws s3 data processing Geospatial Data Openstreetmap Parquet

Mark Litwintschik

9/26/2025 • EN

Analysis-Ready OpenStreetMap

Exploring the Layercake project's analysis-ready OpenStreetMap data in Parquet format, including setup and performance on a high-end workstation.

Etl Geospatial Openstreetmap Parquet Python

Mark Litwintschik

9/6/2025 • EN

The World's 2.75B Buildings

Analysis of a new global building dataset (2.75B structures), detailing the data processing, technical setup, and tools used for exploration.

aws s3 Etl Geospatial Data Parquet Qgi

Mark Litwintschik

6/5/2025 • EN

Overture Maps in ArcGIS Pro

A guide on using the new ArcGIS Pro add-in to download and work with Overture Maps Foundation's global geospatial datasets via Parquet files and DuckDB.

Arcgis Pro c Duckdb Overture Maps Parquet

Mark Litwintschik

6/2/2025 • EN

Digging into Ducklake

An analysis of DuckLake, a new open table format and catalog specification for data engineering, comparing it to existing solutions like Iceberg and Delta Lake.

Data Engineering Duckdb Ducklake Open Table Format Parquet

Robin Moffatt

4/4/2025 • EN

Building a Basic MCP Server with Python

A tutorial on building a beginner-friendly Model Context Protocol (MCP) server in Python to connect Claude AI with local CSV and Parquet files.

csv data processing mcp server Parquet Python

Alex Merced

2/23/2025 • EN

Microsoft SQLPackage: Exciting innovations for data management and provisioning

Microsoft updates SQLPackage with preview support for Parquet files in Azure Blob Storage, enhancing data management and provisioning capabilities.

Azure Blob Storage Data Management Database Provisioning Microsoft Sqlpackage Parquet

Bjoern Peters

10/21/2024 • EN

All About Parquet Part 06 - Encoding in Parquet | Optimizing for Storage

Explains encoding techniques in Parquet files, including dictionary, RLE, bit-packing, and delta encoding, to optimize storage and performance.

Bit Packing data encoding Dictionary Encoding Parquet Run Length Encoding

Alex Merced

10/21/2024 • EN

All About Parquet Part 05 - Compression Techniques in Parquet

Explores compression algorithms in Parquet files, comparing Snappy, Gzip, Brotli, Zstandard, and LZO for storage and performance.

Columnar Storage Data Compression Gzip Parquet Snappy

Alex Merced

10/21/2024 • EN

All About Parquet Part 04 - Schema Evolution in Parquet

Explains how Parquet handles schema evolution, including adding/removing columns and changing data types, for data engineers.

Data Engineering Data Management File Format Parquet Schema Evolution

Alex Merced

10/21/2024 • EN

All About Parquet Part 03 - Parquet File Structure | Pages, Row Groups, and Columns

Explains the hierarchical structure of Parquet files, detailing how pages, row groups, and columns optimize storage and query performance.

Big Data Columnar Storage Data Engineering File Format Parquet

Alex Merced

10/21/2024 • EN

All About Parquet Part 02 - Parquet's Columnar Storage Model

Explains Parquet's columnar storage model, detailing its efficiency for big data analytics through faster queries, better compression, and optimized aggregation.

Big Data Analytics Columnar Storage Data Compression Data Format Parquet

Alex Merced

10/21/2024 • EN

All About Parquet Part 01 - An Introduction

An introduction to Apache Parquet, a columnar storage file format for efficient data processing and analytics.

Big Data Columnar Storage Data Engineering Data Format Parquet

Alex Merced

10/21/2024 • EN

All About Parquet Part 09 - Parquet in Data Lake Architectures

Explores why Parquet is the ideal columnar file format for optimizing storage and query performance in modern data lake and lakehouse architectures.

Apache Iceberg Big Data Columnar Storage Data Lake Parquet

Alex Merced

10/21/2024 • EN

All About Parquet Part 07 - Metadata in Parquet | Improving Data Efficiency

Explores how metadata in Parquet files improves data efficiency and query performance, covering file, row group, and column-level metadata.

Columnar Storage Data Efficiency metadata Parquet Query Performance

Alex Merced

10/21/2024 • EN

All About Parquet Part 08 - Reading and Writing Parquet Files in Python

A practical guide to reading and writing Parquet files in Python using PyArrow and FastParquet libraries.

Data Engineering Fastparquet Parquet Pyarrow Python

Alex Merced

10/21/2024 • EN

All About Parquet Part 10 - Performance Tuning and Best Practices with Parquet

Final guide in a series covering performance tuning and best practices for optimizing Apache Parquet files in big data workflows.

Big Data Data Compression Data Lake Parquet performance tuning

Alex Merced

10/16/2024 • EN

Land Cover from Satellite Imagery

A technical guide on processing Overture Maps' global land cover dataset, focusing on extracting and analyzing Australia's data using DuckDB and QGIS.

data processing Geospatial Data Parquet Satellite Imagery 깃

Mark Litwintschik