Optimum Articles

Page 1 of 1 (4 articles)

8/31/2023 • EN

A guide to using GPTQ quantization with Hugging Face Optimum to compress open-source LLMs for efficient deployment on smaller hardware.

Gptq Hugging Face llm Optimum Quantization

7/19/2022 • EN

Learn to accelerate Vision Transformer (ViT) models using quantization with Hugging Face Optimum and ONNX Runtime for improved latency.

Model Optimization Onnx Runtime Optimum Quantization Vision Transformer

7/13/2022 • EN

Learn to optimize Hugging Face Transformers models for GPU inference using Optimum and ONNX Runtime to reduce latency.

Distilbert Gpu Optimization Onnx Runtime Optimum Transformers

6/30/2022 • EN

Learn to optimize Hugging Face Transformers models using Optimum and ONNX Runtime for faster inference with dynamic quantization.

Hugging Face Onnx Runtime Optimum Quantization Transformers

Select Language