Replicate API

Exécutez et déployez des milliers de modèles IA open source via une seule API.

Replicate est une plateforme qui permet d'exécuter des modèles d'intelligence artificielle dans le cloud via une simple API, sans gérer de serveurs ni de GPU. Son catalogue rassemble des milliers de modèles open source et officiels : génération d'images (FLUX, Stable Diffusion), vidéo, langage, audio, transcription et plus. On peut aussi y déployer ses propres modèles grâce à Cog, son outil open source de packaging. Elle s'adresse aux développeurs qui veulent intégrer rapidement de l'IA générative dans un produit, ou héberger et servir leurs propres modèles à la demande.

Que propose l'API Replicate ?

Public Models

Catalogue de milliers de modèles communautaires (image, vidéo, audio, texte) exécutables par API, facturés au temps GPU consommé.

Official Models

Ensemble curé de plus de 100 modèles (FLUX, modèles vidéo, LLM) facturés à la sortie produite (par image, token ou seconde de vidéo).

Deployments

Déploiements privés et configurables d'un modèle (mise à l'échelle, hardware, concurrence) pour la production.

Cog

Outil open source pour empaqueter un modèle ML dans un conteneur et le déployer sur Replicate avec un serveur API généré automatiquement.

Tarifs de l'API Replicate

Pay-as-you-go sans abonnement. Deux modes de facturation : au temps de calcul (à la seconde de GPU/CPU réellement actif) pour les modèles publics et déploiements privés, ou à la sortie produite (par image, token ou seconde de vidéo) pour les modèles officiels. Avec les modèles publics, le temps de démarrage et d'inactivité n'est pas facturé.

GPU Nvidia T4 (par seconde)

$0.000225

GPU Nvidia L40S (par seconde)

$0.000975

GPU Nvidia A100 80GB (par seconde)

$0.001400

GPU Nvidia H100 (par seconde)

$0.001525

FLUX 1.1 Pro (par image générée)

$0.04

FLUX Dev (par image générée)

$0.025

Authentification & intégration

Authentification par jeton API (chaîne de 40 caractères commençant par r8_), transmis dans l'en-tête Authorization de chaque requête HTTP.

API REST HTTP : on crée une prédiction (POST) en passant les entrées du modèle, puis on récupère le résultat de façon synchrone ou en interrogeant son statut ; webhooks disponibles pour être notifié de la fin. SDK officiels Python et JavaScript, et déploiement de modèles personnalisés via Cog.

Cas d'usage de l'API Replicate

Intégrer la génération d'images (FLUX, Stable Diffusion) dans une application sans gérer de GPU.
Générer ou transformer de la vidéo et de l'audio via des modèles open source du catalogue.
Tester et comparer rapidement plusieurs modèles IA sur une même tâche.
Déployer son propre modèle ML en production grâce à Cog, avec mise à l'échelle automatique.
Lancer des traitements par lots sur des médias (upscaling, restauration, transcription).
Prototyper une fonctionnalité d'IA générative avant d'investir dans une infrastructure dédiée.

✓ Points forts

Accès immédiat à des milliers de modèles IA via une seule API, sans gérer de GPU.
Deux modèles de facturation au choix : au temps de calcul ou à la sortie produite.
Aucun abonnement : on ne paie que l'usage réel, démarrage et inactivité non facturés sur les modèles publics.
Déploiement de modèles personnalisés simplifié par Cog, son outil open source.
SDK officiels et webhooks pour une intégration rapide en production.

⚠ Limites

Le coût au temps GPU peut être imprévisible si le modèle est lent ou mal optimisé.
Les modèles publics non optimisés peuvent subir des temps de démarrage à froid (cold start).
La qualité et la maintenance des modèles communautaires varient d'un auteur à l'autre.
Les déploiements privés en production facturent aussi le temps d'inactivité selon la configuration.

Questions fréquentes sur l'API Replicate

Comment Replicate facture-t-il ses modèles ?

En pay-as-you-go selon deux modes : au temps de calcul (à la seconde de GPU/CPU actif) pour les modèles publics et déploiements privés, ou à la sortie produite (par image, token ou seconde de vidéo) pour les modèles officiels.

Quelle authentification utilise l'API ?

Un jeton API de 40 caractères commençant par r8_, transmis dans l'en-tête Authorization de chaque requête HTTP.

Faut-il gérer un serveur ou un GPU ?

Non, Replicate exécute les modèles dans le cloud à la demande : on appelle l'API et la plateforme provisionne le matériel nécessaire, facturé uniquement pendant l'exécution.

Peut-on déployer son propre modèle ?

Oui, grâce à Cog, l'outil open source de Replicate qui empaquette un modèle ML dans un conteneur et génère automatiquement un serveur API déployable sur la plateforme.

Quelle différence entre modèles publics et officiels ?

Les modèles publics sont facturés au temps de calcul GPU consommé, tandis que les modèles officiels (FLUX, LLM, modèles vidéo) sont facturés à la sortie produite, par image, token ou seconde de vidéo.

Comment récupérer le résultat d'une prédiction ?

On crée une prédiction via l'API, puis on récupère le résultat de façon synchrone, en interrogeant son statut, ou via un webhook qui notifie la fin du traitement.

Découvrir Replicate →

Visiter Replicate →