Data Compression articles

1/9/2026 • EN

Compressing a set of hash values

Explores compressing sets of hash values using Golomb-Rice coding, detailing the theory and implementation with examples.

Bitcoin Protocol Data Compression Golomb Coded Sets Golomb Rice Coding Hash Sets

John D. Cook

10/21/2024 • EN

All About Parquet Part 02 - Parquet's Columnar Storage Model

Explains Parquet's columnar storage model, detailing its efficiency for big data analytics through faster queries, better compression, and optimized aggregation.

Big Data Analytics Columnar Storage Data Compression Data Format Parquet

Alex Merced

10/21/2024 • EN

All About Parquet Part 05 - Compression Techniques in Parquet

Explores compression algorithms in Parquet files, comparing Snappy, Gzip, Brotli, Zstandard, and LZO for storage and performance.

Columnar Storage Data Compression Gzip Parquet Snappy

Alex Merced

10/21/2024 • EN

All About Parquet Part 10 - Performance Tuning and Best Practices with Parquet

Final guide in a series covering performance tuning and best practices for optimizing Apache Parquet files in big data workflows.

Big Data Data Compression Data Lake Parquet performance tuning

Alex Merced

6/15/2024 • EN

Building a data compression utility in Haskell using Huffman codes

A tutorial on implementing a Huffman coding data compression utility in Haskell, focusing on constant memory usage and functional programming principles.

Binary Files Data Compression functional programming Haskell Huffman Coding

Marcelo Lazaroni

6/12/2024 • EN

Ingest and route compressed data from EventHub to ADX

A technical guide on setting up Azure Event Hub to ingest and route compressed data into Azure Data Explorer (ADX) for real-time analytics.

Azure Data Explorer Data Compression Data Ingestion Event Hub Real Time Analytics

Nikos Chelmis

3/5/2024 • EN

Compressing CS2 Demos

Explains techniques for compressing and analyzing CS2 game demo files using Protocol Buffers and custom data structures for performance analysis.

data analysis Data Compression Game Demos golang Protobuf

Andrew Healey

6/19/2023 • EN

Parquet File Compression for Everyone (zstd, brotli, lz4, gzip, snappy)

A guide comparing popular data compression codecs (zstd, brotli, lz4, gzip, snappy) for Parquet files, explaining their trade-offs for big data.

brotli Data Compression Lz4 Parquet Zstd

Alex Merced

2/4/2021 • EN

1.1 Billion Taxi Rides using Hydrolix on AWS

A technical benchmark of the Hydrolix analytics platform on AWS, testing its performance on a 1.1 billion row NYC taxi dataset.

aws Cloud Analytics Data Compression Hydrolix sql

Mark Litwintschik

9/27/2018 • EN

Columnstore Indexes – part 125 (“Estimate Columnstore Compression as a System Stored Proc”)

Explores Microsoft's new Columnstore compression estimation in SQL Server 2019, comparing it to a custom system stored procedure.

Columnstore Indexes Data Compression Database Optimization SQL Server Stored Procedures

Niko Neugebauer

6/24/2018 • EN

Columnstore Indexes – part 124 (“Estimate Columnstore Compression”)

Introduces a custom stored procedure for estimating compression savings for SQL Server Columnstore Indexes, filling a gap in native tooling.

Columnstore Indexes Data Compression Database Optimization SQL Server Stored Procedure

Niko Neugebauer

3/23/2018 • EN

Columnstore Indexes – part 121 (“Columnstore Indexes on Standard Tier of Azure SQL DB”)

Columnstore Indexes are now available on the Standard Tier of Azure SQL Database, enabling better compression and performance for data warehousing.

Azure SQL Database Columnstore Indexes Data Compression Database Performance SQL Server

Niko Neugebauer

10/3/2016 • EN

Gnocchi 3.0 release

Announcing Gnocchi 3.0, a major release of the time-series database featuring a new high-performance storage engine and LZ4 compression.

Ceph Data Compression Gnocchi Storage Engine Timeseries Database

Julien Danjou

2/15/2016 • EN

Timeseries storage and data compression

Explores improvements in Gnocchi's timeseries database storage, focusing on data splitting and compression techniques for better performance.

Data Compression Data Storage distributed systems performance optimization Timeseries Database

Julien Danjou

Data Compression Articles

Compressing a set of hash values

All About Parquet Part 02 - Parquet's Columnar Storage Model

All About Parquet Part 05 - Compression Techniques in Parquet

All About Parquet Part 10 - Performance Tuning and Best Practices with Parquet

Building a data compression utility in Haskell using Huffman codes

Ingest and route compressed data from EventHub to ADX

Compressing CS2 Demos

Parquet File Compression for Everyone (zstd, brotli, lz4, gzip, snappy)

1.1 Billion Taxi Rides using Hydrolix on AWS

Columnstore Indexes – part 125 (“Estimate Columnstore Compression as a System Stored Proc”)

Columnstore Indexes – part 124 (“Estimate Columnstore Compression”)

Columnstore Indexes – part 121 (“Columnstore Indexes on Standard Tier of Azure SQL DB”)

Gnocchi 3.0 release

Timeseries storage and data compression

Select Language

We use cookies