AssemblyAI API
Transcription précise et intelligence audio (résumé, sentiment, LLM) par API.
AssemblyAI est une plateforme d'IA vocale dont l'API couvre la transcription audio (speech-to-text) avec ses modèles Universal, en mode pré-enregistré comme en streaming temps réel, ainsi qu'une couche d'Audio Intelligence (résumé, analyse de sentiment, détection de sujets, diarisation, masquage des données personnelles) et LeMUR, qui applique des grands modèles de langage aux transcriptions. Elle s'adresse aux développeurs qui veulent transcrire et analyser de l'audio à grande échelle, bâtir des agents vocaux ou extraire des insights de fichiers audio et vidéo.
Que propose l'API AssemblyAI ?
Tarifs de l'API AssemblyAI
Pay-as-you-go facturé à l'heure d'audio traité, avec des tarifs distincts selon le modèle et le mode (pré-enregistré ou streaming). Des options s'ajoutent en supplément (diarisation, mode médical, masquage PII). LeMUR et le LLM Gateway sont facturés au token (entrée et sortie).
Offre gratuite — 50 $ de crédits offerts à l'inscription, sans moyen de paiement requis, soit plusieurs centaines d'heures de transcription selon le modèle. Le débit du tier gratuit est limité (5 nouvelles connexions streaming par minute).
Authentification & intégration
Authentification par clé API transmise dans l'en-tête Authorization de chaque requête, générée depuis le tableau de bord ; la même clé donne accès au LLM Gateway.
API REST asynchrone pour la transcription pré-enregistrée : on soumet un fichier (URL ou upload), on interroge le statut puis on récupère le résultat ; webhooks disponibles. API WebSocket pour le streaming temps réel. SDK officiels Python, JavaScript et autres.
Cas d'usage de l'API AssemblyAI
- Transcrire et résumer automatiquement des réunions, interviews ou podcasts.
- Analyser des appels de centres de contact (sentiment, sujets, locuteurs) à grande échelle.
- Ajouter une transcription temps réel à une application avec Universal-Streaming.
- Interroger des transcriptions en langage naturel via LeMUR (questions-réponses, extraction).
- Masquer automatiquement les données personnelles (PII) dans des enregistrements sensibles.
- Sous-titrer des vidéos et générer des chapitres ou résumés automatiquement.
✓ Points forts
- Transcription très précise avec plusieurs modèles selon le compromis coût/qualité.
- Couche d'Audio Intelligence riche : résumé, sentiment, sujets, PII, diarisation.
- LeMUR et LLM Gateway pour appliquer des LLM aux transcriptions sans intégration séparée.
- Streaming temps réel à faible latence avec concurrence illimitée.
- Crédits gratuits de 50 $ et SDK officiels pour démarrer sans engagement.
⚠ Limites
- Le coût réel grimpe avec les options ajoutées (diarisation, mode médical, PII) facturées en supplément.
- Le streaming haute précision (Universal-3 Pro Streaming) est nettement plus cher que le batch.
- Produit orienté API : pas d'interface complète pour les utilisateurs non techniques.
- Le débit du tier gratuit est limité, ce qui freine les tests à fort volume.
Questions fréquentes sur l'API AssemblyAI
AssemblyAI propose-t-il une offre gratuite ?
Oui, 50 $ de crédits sont offerts à l'inscription sans moyen de paiement requis, soit plusieurs centaines d'heures de transcription selon le modèle, avec un débit limité sur le tier gratuit.
Comment est facturée la transcription ?
À l'heure d'audio traité, avec des tarifs variant selon le modèle et le mode : par exemple 0,21 $/h pour Universal-3 Pro en batch, 0,15 $/h pour Universal-2 et 0,15 $/h pour Universal-Streaming.
Quelle authentification utilise l'API ?
Une clé API générée dans le tableau de bord et transmise dans l'en-tête Authorization de chaque requête ; la même clé sert aussi à accéder au LLM Gateway.
Qu'est-ce que LeMUR ?
LeMUR permet d'appliquer des grands modèles de langage aux transcriptions pour les résumer, répondre à des questions ou en extraire des informations structurées, facturé au token.
Peut-on transcrire en temps réel ?
Oui, Universal-Streaming offre une transcription temps réel à faible latence (~300 ms) via WebSocket, avec endpointing intelligent et concurrence illimitée, à 0,15 $/h.
Comment fonctionne la transcription d'un fichier ?
L'API est asynchrone : on soumet le fichier par URL ou upload, on interroge le statut de la tâche puis on récupère le résultat, avec des webhooks possibles pour être notifié de la fin.







