Data Pipeline articles

5/24/2026 • EN

How dbt Fusion Reshapes Analytics Engineering

Explores how dbt Fusion, a Rust-based rewrite of dbt Core, transforms analytics engineering by treating SQL as first-class code with AST parsing and static analysis.

Analytics Engineering Data Pipeline Dbt rust sql

Alex Merced

3/1/2026 • EN

Generate Summaries and Insights with Dremio's AI_COMPLETE Function

Tutorial on using Dremio's AI_COMPLETE SQL function to generate product summaries, marketing copy, and translations directly within a data pipeline.

Ai_complete Data Pipeline Dremio llm sql

Alex Merced

2/19/2026 • EN

Data Virtualization and the Semantic Layer: Query Without Copying

Explains how data virtualization and a semantic layer enable querying distributed data without copying, reducing costs and improving freshness.

Analytics Architecture Data Pipeline Data Virtualization Etl Semantic Layer

Alex Merced

2/19/2026 • EN

Data Quality Is a Pipeline Problem, Not a Dashboard Problem

Argues that data quality must be enforced at the pipeline's ingestion point, not patched in dashboards, to ensure consistent, reliable data.

Data Engineering Data Governance Data Pipeline Data Quality Data Validation

Alex Merced

3/24/2025 • EN

Interesting links - March 2025

A monthly roundup of tech links covering DuckDB, Kafka, data visualization, and stream processing, with highlights and commentary.

Apache Kafka Data Pipeline distributed computing Duckdb Event Streaming

Robin Moffatt

3/20/2025 • EN

Building a data pipeline with DuckDB

A guide to building a data pipeline using DuckDB, covering data ingestion, transformation, and analytics with real-world environmental data.

Data Engineering Data Pipeline Duckdb Etl Slowly Changing Dimensions

Robin Moffatt

11/15/2024 • EN

Deep Dive into Dremio's File-based Auto Ingestion into Apache Iceberg Tables

A guide to setting up and using Dremio's Auto-Ingest feature for automated, event-driven data loading into Apache Iceberg tables from cloud storage.

Apache Iceberg Data Ingestion Data Lakehouse Data Pipeline Dremio

Alex Merced

11/4/2024 • EN

Guide to generating and rendering computational markdown content programmatically with Quarto

A technical guide on using Quarto and R to programmatically generate and render markdown content for election results websites.

Data Pipeline Quarto Reproducible Research Rmarkdown Targets

Andrew Heiss

7/18/2024 • EN

Sending Data to Apache Iceberg from Apache Kafka with Apache Flink

A technical guide on using Apache Flink SQL to stream data from Apache Kafka into Apache Iceberg tables, including code examples.

Apache Flink Apache Iceberg Apache Kafka Data Pipeline Stream Processing

Robin Moffatt

12/29/2022 • EN

Data Pipeline from Kafka to ElasticSearch using Logstash

A technical guide on configuring a data pipeline from Kafka to Elasticsearch using Logstash, including Docker setup and configuration examples.

Data Pipeline docker Elasticsearch Kafka Logstash

Thanasis Sergouniotis

8/31/2022 • EN

A tour of torchdata

An in-depth look at torchdata's internal architecture, focusing on datapipes and how they optimize data loading for PyTorch to improve GPU memory bandwidth.

Data Pipeline dataloader Datapipe Pytorch Torchdata

Mark Saroufim

9/19/2021 • EN

The First Rule of Machine Learning: Start without Machine Learning

Advises starting ML projects with simple heuristics and data analysis before implementing complex machine learning models, citing expert advice.

Data Pipeline heuristics Machine Learning prototyping software development

Eugene Yan

2/7/2021 • EN

DataTalksClub - Building an ML System; Behind the Scenes

A behind-the-scenes look at designing and implementing a production machine learning system for a major hospital group, covering architecture and validation.

Azure Data Pipeline Machine Learning Model Deployment Production System

Eugene Yan