Hugging Face Inference API

Des milliers de modèles open source servis via une seule API et un seul token.

Hugging Face Inference Providers est une couche d'inférence serverless qui donne accès, via une seule API et un seul token Hugging Face, à des centaines de modèles open source exécutés sur un réseau de fournisseurs d'infrastructure spécialisés (Groq, Together, Cerebras, fal, Replicate et d'autres). Elle couvre de nombreuses tâches : génération de texte, vision, embeddings, génération d'images, transcription audio et plus. C'est la solution idéale pour les développeurs qui veulent exploiter l'écosystème ouvert de Hugging Face sans gérer eux-mêmes le déploiement des modèles.

Que propose l'API Hugging Face Inference ?

Chat Completion (LLM/VLM)

Génération de texte conversationnelle et modèles vision-langage, au format compatible OpenAI.

Text-to-Image / Text-to-Video

Génération d'images et de vidéos à partir de texte (modèles comme FLUX), avec support des LoRA.

Feature Extraction (Embeddings)

Vectorisation de texte pour la recherche sémantique, le RAG et la recommandation.

Speech-to-Text

Transcription audio via des modèles de reconnaissance vocale.

Routage multi-fournisseurs

Sélection automatique du fournisseur (le plus rapide ou le moins cher) et bascule de secours via un proxy unifié.

Tarifs de l'API Hugging Face Inference

Paiement à l'usage : on paie le tarif du fournisseur d'inférence sous-jacent, sans marge ajoutée par Hugging Face. La facturation se fait au token (texte) ou à la requête/seconde selon la tâche et le fournisseur. Un niveau gratuit avec crédits mensuels est inclus, élargi pour les abonnés PRO et les organisations.

Marge ajoutée par Hugging Face sur le tarif fournisseur

Aucune

Offre gratuite — Un niveau gratuit généreux est inclus avec des crédits mensuels d'inférence, permettant de tester les modèles sans payer. Les abonnés PRO et les organisations Team & Enterprise bénéficient de crédits supplémentaires. Au-delà, l'usage est facturé au tarif du fournisseur sous-jacent.

Authentification & intégration

Token Hugging Face transmis en jeton Bearer dans l'en-tête Authorization (Authorization: Bearer <HF_TOKEN>). Le token se génère dans les réglages du compte avec la permission d'appeler les Inference Providers.

Deux approches. Endpoint compatible OpenAI (base URL https://router.huggingface.co/v1) pour le chat, avec sélection automatique du fournisseur côté serveur (suffixes :fastest, :cheapest, :preferred). SDK officiels Python (huggingface_hub) et JavaScript (@huggingface/inference) pour toutes les tâches (image, audio, embeddings), avec choix explicite du fournisseur ou mode auto. Streaming et appel d'outils pris en charge sur les modèles compatibles.

Cas d'usage de l'API Hugging Face Inference

Intégrer un modèle de chat open source (Llama, DeepSeek, GPT-OSS) sans gérer l'infrastructure.
Générer des images à partir de texte avec des modèles de diffusion comme FLUX.
Construire un système RAG en vectorisant des documents avec des embeddings open source.
Transcrire de l'audio via des modèles de reconnaissance vocale serverless.
Comparer plusieurs modèles et fournisseurs depuis une seule API et un seul token.
Tester rapidement le dernier modèle open source dès sa publication sur le Hub.

✓ Points forts

Accès à des milliers de modèles open source de l'écosystème Hugging Face via un seul token.
Couverture multi-tâches : texte, vision, embeddings, image, vidéo, audio.
Aucune marge ajoutée par Hugging Face sur le tarif des fournisseurs d'inférence.
Routage automatique multi-fournisseurs avec bascule de secours et politiques fastest/cheapest.
Endpoint compatible OpenAI et niveau gratuit avec crédits mensuels pour démarrer.

⚠ Limites

Uniquement des modèles open source : pas d'accès aux modèles propriétaires fermés.
L'endpoint compatible OpenAI est limité au chat ; les autres tâches passent par les SDK Hugging Face.
Disponibilité et tarif d'un modèle dépendent des fournisseurs qui le servent.
Couche d'intermédiation supplémentaire : latence et dépendance au proxy Hugging Face.
Les crédits gratuits sont vite consommés sur des tâches lourdes comme la génération d'images.

Questions fréquentes sur l'API Hugging Face Inference

Qu'est-ce que Hugging Face Inference Providers ?

C'est une couche d'inférence serverless qui donne accès, via un seul token Hugging Face, à des centaines de modèles open source exécutés sur un réseau de fournisseurs d'infrastructure (Groq, Together, Cerebras, fal, Replicate et d'autres), pour de nombreuses tâches d'IA.

Comment s'authentifier ?

On génère un token dans les réglages du compte Hugging Face, avec la permission d'appeler les Inference Providers, puis on l'envoie en jeton Bearer dans l'en-tête Authorization de chaque requête.

Y a-t-il une offre gratuite ?

Oui. Un niveau gratuit avec des crédits mensuels d'inférence est inclus pour tester les modèles. Les abonnés PRO et les organisations Team & Enterprise reçoivent des crédits supplémentaires. Au-delà, l'usage est facturé au tarif du fournisseur sous-jacent.

L'API est-elle compatible avec OpenAI ?

Oui pour le chat : un endpoint compatible OpenAI est disponible à la base URL https://router.huggingface.co/v1. Pour les autres tâches (image, audio, embeddings), on utilise les SDK officiels Python ou JavaScript de Hugging Face.

Comment est choisi le fournisseur d'inférence ?

Par défaut, le système sélectionne automatiquement le fournisseur le plus rapide. On peut changer cette politique avec des suffixes sur l'identifiant du modèle (:cheapest pour le moins cher, :preferred selon ses préférences) ou forcer un fournisseur précis. Une bascule de secours est assurée en cas d'indisponibilité.

Quelles tâches sont prises en charge ?

Génération de texte (LLM), modèles vision-langage, extraction de features (embeddings), génération d'images et de vidéos à partir de texte, et transcription audio (speech-to-text), selon les capacités de chaque fournisseur.

Découvrir Hugging Face Inference →

Visiter Hugging Face Inference →