Parquet articles

10/21/2024 • EN

All About Parquet Part 03 - Parquet File Structure | Pages, Row Groups, and Columns

Explains the hierarchical structure of Parquet files, detailing how pages, row groups, and columns optimize storage and query performance.

Big Data Columnar Storage Data Engineering File Format Parquet

Alex Merced

10/21/2024 • EN

All About Parquet Part 10 - Performance Tuning and Best Practices with Parquet

Final guide in a series covering performance tuning and best practices for optimizing Apache Parquet files in big data workflows.

Big Data Data Compression Data Lake Parquet performance tuning

Alex Merced

10/21/2024 • EN

All About Parquet Part 09 - Parquet in Data Lake Architectures

Explores why Parquet is the ideal columnar file format for optimizing storage and query performance in modern data lake and lakehouse architectures.

Apache Iceberg Big Data Columnar Storage Data Lake Parquet

Alex Merced

10/21/2024 • EN

All About Parquet Part 08 - Reading and Writing Parquet Files in Python

A practical guide to reading and writing Parquet files in Python using PyArrow and FastParquet libraries.

Data Engineering Fastparquet Parquet Pyarrow Python

Alex Merced

10/21/2024 • EN

All About Parquet Part 07 - Metadata in Parquet | Improving Data Efficiency

Explores how metadata in Parquet files improves data efficiency and query performance, covering file, row group, and column-level metadata.

Columnar Storage Data Efficiency metadata Parquet Query Performance

Alex Merced

10/21/2024 • EN

All About Parquet Part 05 - Compression Techniques in Parquet

Explores compression algorithms in Parquet files, comparing Snappy, Gzip, Brotli, Zstandard, and LZO for storage and performance.

Columnar Storage Data Compression Gzip Parquet Snappy

Alex Merced

10/21/2024 • EN

All About Parquet Part 04 - Schema Evolution in Parquet

Explains how Parquet handles schema evolution, including adding/removing columns and changing data types, for data engineers.

Data Engineering Data Management File Format Parquet Schema Evolution

Alex Merced

10/16/2024 • EN

Land Cover from Satellite Imagery

A technical guide on processing Overture Maps' global land cover dataset, focusing on extracting and analyzing Australia's data using DuckDB and QGIS.

data processing Geospatial Data Parquet Satellite Imagery 깃

Mark Litwintschik

10/15/2024 • EN

Getting Started with Data Analytics Using PyArrow in Python

A tutorial on using PyArrow for data analytics in Python, covering core concepts, file I/O, and analytical operations.

Apache Arrow Data Analytics Parquet Pyarrow Python

Alex Merced

9/17/2024 • EN

Japan's Building Footprints

Exploring Japan's building footprint data from the Flateau project, which converts 3D CityGML data into 2D Parquet files for analysis.

Building Footprints Citygml data processing Geospatial Data Parquet

Mark Litwintschik

3/15/2024 • EN

1.1 Billion Taxi Rides using DuckDB

A benchmark analysis of DuckDB's performance on a massive 1.1 billion row NYC taxi dataset, comparing it to other database technologies.

Columnar Storage data analysis Duckdb Olap Database Parquet

Mark Litwintschik

12/18/2023 • EN

No Code - Convert XLS/CSV files into Parquet with Dremio

A no-code tutorial on converting XLS/CSV files to Parquet format using Dremio, including setup via Docker.

Data Conversion docker Dremio No Code Parquet

Alex Merced

9/22/2023 • EN

An Approach to Architecting a Lower Cost, Fast and Self-Service Data Lakehouse

A guide to building a cost-effective, high-performance, and self-service data lakehouse architecture, addressing common pitfalls and outlining key principles.

cloud computing Data Architecture Data Lakehouse Parquet Self Service

Alex Merced