Model Optimization articles

3/8/2025 • EN

Explores recent research on improving LLM reasoning through inference-time compute scaling methods, comparing various techniques and their impact.

AI Research Inference Time Compute large language models LLM Reasoning Model Optimization

2/7/2025 • EN

Summary of key concepts for optimizing AI inference performance, covering bottlenecks, metrics, and deployment patterns from Chip Huyen's book.

Hardware Optimization Inference Optimization llm Machine Learning Model Optimization

6/28/2023 • EN

A tutorial on optimizing and deploying a BERT model for low-latency inference using AWS Inferentia2 accelerators and Amazon SageMaker.

Amazon Sagemaker AWS Inferentia2 Bert Machine Learning Deployment Model Optimization

7/19/2022 • EN

Learn to accelerate Vision Transformer (ViT) models using quantization with Hugging Face Optimum and ONNX Runtime for improved latency.

Model Optimization Onnx Runtime Optimum Quantization Vision Transformer

6/7/2022 • EN

Learn how to use Hugging Face Optimum and ONNX Runtime to apply static quantization to a DistilBERT model, achieving ~3x latency improvements.

Distilbert Hugging Face Optimum Model Optimization Onnx Runtime Quantization

10/28/2018 • EN

A technical case study on optimizing a slow multi-modal ML model for production using caching, async processing, and a microservices architecture.

caching Embedding Inference Speed Model Optimization Neural Networks

Model Optimization Articles