Groq API

L'inférence LLM ultra-rapide grâce à une puce dédiée, la LPU.

Groq propose, via GroqCloud, une API d'inférence pour grands modèles de langage open source, exécutée sur son matériel propriétaire : la LPU (Language Processing Unit). Son argument central est la vitesse : Groq sert les modèles à des débits de plusieurs centaines à plus de mille tokens par seconde, bien au-dessus des GPU classiques, avec une tarification au token simple et compétitive. L'API est compatible OpenAI, ce qui en fait une solution de remplacement immédiate pour les développeurs en quête de latence minimale.

Que propose l'API Groq ?

Chat Completions

Inférence des principaux modèles open source (familles Llama, GPT-OSS, Kimi, et plus) au format compatible OpenAI.

Speech-to-Text (Whisper)

Transcription audio rapide avec les modèles Whisper, facturée à l'heure d'audio traité.

Batch API

Traitement par lots asynchrone avec une réduction tarifaire pour les charges non urgentes.

Function calling & JSON

Appel d'outils et sortie structurée en JSON pour intégrer les modèles dans des agents et workflows.

Tarifs de l'API Groq

Paiement à l'usage au nombre de tokens (entrée et sortie), tarif variable selon le modèle. Transcription audio facturée à l'heure. Réduction sur le traitement par lots (Batch). Aucun coût d'infrastructure au repos ni engagement de capacité réservée.

Llama 3.3 70B Versatile — entrée / sortie (par million de tokens)

$0.59 / $0.79

Llama 3.1 8B Instant — entrée / sortie (par million de tokens)

$0.05 / $0.08

GPT-OSS 120B — entrée / sortie (par million de tokens)

$0.15 / $0.60

Llama 4 Maverick — entrée / sortie (par million de tokens)

$0.50 / $0.77

Kimi K2 — entrée / sortie (par million de tokens)

$1.00 / $3.00

Whisper Large v3 Turbo — par heure d'audio transcrit

$0.04

Offre gratuite — Un niveau gratuit permet de démarrer et de tester l'API avec des limites de débit. L'usage en production se fait ensuite sur un plan payant facturé à l'usage, sans engagement ni frais cachés.

Authentification & intégration

Clé API transmise en jeton Bearer dans l'en-tête Authorization (Authorization: Bearer <clé>). La clé se génère depuis la console GroqCloud.

API REST au format compatible OpenAI : on peut réutiliser les SDK OpenAI en changeant la base URL et la clé. Prise en charge du streaming, de l'appel d'outils (function calling), de la sortie JSON et de la transcription audio. Une Batch API offre un mode asynchrone à tarif réduit.

Cas d'usage de l'API Groq

Servir un chatbot ou un assistant en temps réel avec une latence très faible.
Remplacer un fournisseur LLM plus lent en réutilisant le code OpenAI existant.
Transcrire de l'audio à grande vitesse avec les modèles Whisper.
Traiter de gros volumes de classification ou de résumé en mode Batch à coût réduit.
Construire des agents avec appel d'outils nécessitant des réponses quasi instantanées.
Exécuter des modèles open source (Llama, GPT-OSS, Kimi) sans gérer soi-même le GPU.

✓ Points forts

Vitesse d'inférence exceptionnelle grâce à la LPU : plusieurs centaines à plus de mille tokens par seconde.
Tarification au token simple, compétitive et sans frais cachés ni capacité réservée.
Format d'API compatible OpenAI : migration quasi immédiate du code existant.
Large choix de modèles open source à jour (Llama, GPT-OSS, Kimi, Whisper).
Mode Batch à tarif réduit pour les traitements non urgents.

⚠ Limites

Uniquement des modèles open source : pas d'accès à des modèles propriétaires comme GPT ou Claude.
Le catalogue de modèles évolue : certaines références peuvent être retirées ou remplacées.
Limites de débit qui peuvent contraindre les très gros volumes en temps réel.
Pas d'option d'hébergement de modèles privés ou de fine-tuning aussi étendue que chez certains concurrents.

Questions fréquentes sur l'API Groq

Qu'est-ce qui rend Groq aussi rapide ?

Groq exécute les modèles sur sa puce propriétaire, la LPU (Language Processing Unit), conçue spécifiquement pour l'inférence de modèles de langage. Elle atteint des débits de plusieurs centaines à plus de mille tokens par seconde, nettement au-dessus des GPU classiques.

L'API Groq est-elle compatible avec OpenAI ?

Oui. GroqCloud expose une API au format compatible OpenAI : on peut réutiliser les SDK OpenAI en changeant simplement la base URL et la clé, ce qui rend la migration quasi immédiate.

Groq propose-t-il une offre gratuite ?

Oui, un niveau gratuit permet de tester l'API avec des limites de débit. Pour la production, on passe sur un plan payant facturé à l'usage, sans engagement ni capacité réservée.

Quels modèles peut-on utiliser sur Groq ?

Des modèles open source à jour : les familles Llama, GPT-OSS, Kimi, ainsi que les modèles Whisper pour la transcription audio. Groq ne sert pas de modèles propriétaires fermés comme GPT ou Claude.

Comment réduire les coûts sur de gros volumes ?

En utilisant la Batch API, qui traite les requêtes de façon asynchrone avec une réduction tarifaire. C'est idéal pour la classification, le résumé ou l'enrichissement de données qui ne nécessitent pas une réponse immédiate.

Groq gère-t-il le function calling ?

Oui, l'API prend en charge l'appel d'outils (function calling), la sortie structurée en JSON et le streaming, ce qui permet de bâtir des agents réactifs avec des réponses quasi instantanées.

Découvrir Groq →

Visiter Groq →