Quantization articles

5/1/2024 • EN

Guide to running local LLMs like Llama3 and Phi-3 on a Raspberry Pi 5 using Ollama for private, cost-effective AI.

Local LLM Ollama Quantization raspberry pi Semantic Kernel

4/2/2024 • EN

A technical guide on accelerating the Mixtral 8x7B LLM using speculative decoding (Medusa) and quantization (AWQ) for deployment on Amazon SageMaker.

Amazon Sagemaker LLM Inference Mixtral 8x7b Quantization Speculative Decoding

2/23/2024 • EN

A guide to reducing PNG image file sizes using quantization with the pngquant tool, including command examples and results.

command line image optimization lossy compression Png Quantization

8/31/2023 • EN

A guide to using GPTQ quantization with Hugging Face Optimum to compress open-source LLMs for efficient deployment on smaller hardware.

Gptq Hugging Face llm Optimum Quantization

7/19/2022 • EN

Learn to accelerate Vision Transformer (ViT) models using quantization with Hugging Face Optimum and ONNX Runtime for improved latency.

Model Optimization Onnx Runtime Optimum Quantization Vision Transformer

6/30/2022 • EN

Learn to optimize Hugging Face Transformers models using Optimum and ONNX Runtime for faster inference with dynamic quantization.

Hugging Face Onnx Runtime Optimum Quantization Transformers

6/7/2022 • EN

Learn how to use Hugging Face Optimum and ONNX Runtime to apply static quantization to a DistilBERT model, achieving ~3x latency improvements.

Distilbert Hugging Face Optimum Model Optimization Onnx Runtime Quantization

Quantization Articles