Hugging Face Optimum articles

6/18/2024 • EN

A technical guide on deploying the Mixtral 8x7B LLM on AWS Inferentia2 using Hugging Face Optimum and Amazon SageMaker.

Amazon Sagemaker AWS Inferentia2 Hugging Face Optimum LLM Deployment Mixtral 8x7b

5/23/2024 • EN

A technical guide on deploying Meta's Llama 3 70B Instruct model on AWS Inferentia2 using Hugging Face Optimum and Amazon SageMaker.

Amazon Sagemaker AWS Inferentia2 Hugging Face Optimum LLM Deployment Meta Llama 3

3/26/2024 • EN

A technical guide on deploying Meta's Llama 2 70B large language model on AWS Inferentia2 hardware using Hugging Face Optimum and SageMaker.

Amazon Sagemaker AWS Inferentia2 Hugging Face Optimum Llama 2 LLM Deployment

8/2/2022 • EN

Learn to optimize Sentence Transformers models for faster inference using Hugging Face Optimum, ONNX Runtime, and dynamic quantization.

Hugging Face Optimum Model Quantization Onnx Runtime performance optimization Sentence Transformers

6/21/2022 • EN

A guide on converting Hugging Face Transformers models to the ONNX format using the Optimum library for optimized deployment.

Hugging Face Optimum Model Conversion Neural Networks Onnx Transformers

6/7/2022 • EN

Learn how to use Hugging Face Optimum and ONNX Runtime to apply static quantization to a DistilBERT model, achieving ~3x latency improvements.

Distilbert Hugging Face Optimum Model Optimization Onnx Runtime Quantization

Hugging Face Optimum Articles