Data Quality articles

7/14/2025 • EN

Why your AI might be biased (and what you can do about it)

Explains the causes of bias in AI systems, focusing on training data and proxy variables, and offers practical steps for developers to mitigate it.

ai bias Algorithmic Fairness Data Quality Machine Learning Ethics Model Training

Leo Visser

5/2/2025 • EN

Introduction to Data Engineering Concepts | Data Quality and Validation

Explores the importance of data quality and validation in data engineering, covering key dimensions and tools for reliable pipelines.

Apache Iceberg Data Engineering Data Pipelines Data Quality Data Validation

Alex Merced

2/5/2025 • EN

Dataset Engineering: The Art and Science of Data Preparation

Notes on dataset engineering from Chip Huyen's 'AI Engineering', covering data curation, quality, coverage, quantity, and acquisition for AI models.

AI Engineering Data Curation Data Preparation Data Quality Dataset Engineering

Alex Strick van Linschoten

2/28/2024 • EN

Datacast Episode 133: Full Data Stack Observability with Salma Bakouk

An interview with Salma Bakouk, CEO of Sifflet, discussing data stack observability, data quality, lineage, and building a modern data team.

Data Catalog Data Lineage Data Observability Data Quality Data Stack

James Le

2/5/2024 • EN

Thinking about High-Quality Human Data

Explores the importance of high-quality human-annotated data for training AI models, covering task design, rater selection, and the wisdom of the crowd.

Data Quality Human Annotation LLM Alignment Machine Learning Rlhf

Lilian Weng

6/16/2023 • EN

Datacast Episode 119: Experimentation Culture, Immutable Data Warehouse, The Data Collaboration Problem, and The Rise of Data Contracts with Chad Sanderson

Interview with Chad Sanderson on data platform leadership, experimentation culture, data quality, and the rise of data contracts.

Data Contracts Data Engineering Data Platform Data Quality Experimentation Culture

James Le

4/14/2022 • EN

Great Expectations Data Quality Testing

An introduction to Great Expectations, an open-source Python tool for data quality testing, documentation, and profiling.

Data Quality Data Testing Great Expectations Python

Matt Layman

3/31/2022 • EN

PDF Courses Report - Building SaaS #132

Adding a PDF course completion report for students in a SaaS application built with Python and Django.

Data Quality django Pdf Generation Python saas

Matt Layman

5/18/2020 • EN

6 Little-Known Challenges After Deploying Machine Learning

Explores six unexpected challenges that arise after deploying machine learning models in production, from data schema changes to organizational issues.

Data Quality deployment Machine Learning Mlop production

Eugene Yan

3/25/2020 • EN

Speed of Data

An enterprise architect discusses the challenges of data validation speed, automation, and the essential role of human intuition in ensuring data quality.

Business Systems Data Aggregation Data Quality Data Validation data visualization

Rob Koch

Data Quality Articles