AssemblyAI API

Transcription précise et intelligence audio (résumé, sentiment, LLM) par API.

AssemblyAI est une plateforme d'IA vocale dont l'API couvre la transcription audio (speech-to-text) avec ses modèles Universal, en mode pré-enregistré comme en streaming temps réel, ainsi qu'une couche d'Audio Intelligence (résumé, analyse de sentiment, détection de sujets, diarisation, masquage des données personnelles) et LeMUR, qui applique des grands modèles de langage aux transcriptions. Elle s'adresse aux développeurs qui veulent transcrire et analyser de l'audio à grande échelle, bâtir des agents vocaux ou extraire des insights de fichiers audio et vidéo.

Que propose l'API AssemblyAI ?

Speech-to-Text (Universal)

Transcrit l'audio pré-enregistré avec les modèles Universal-3 Pro (haute précision) et Universal-2 (économique), avec ponctuation et diarisation.

Universal-Streaming

Transcription temps réel à faible latence (~300 ms) avec endpointing intelligent et concurrence illimitée, en anglais ou multilingue.

Audio Intelligence

Extrait des insights : résumé, analyse de sentiment, détection de sujets et d'entités, diarisation des locuteurs, masquage des données personnelles (PII).

LeMUR

Applique des grands modèles de langage aux transcriptions pour résumer, répondre à des questions ou extraire des informations structurées.

LLM Gateway

Passerelle unifiée vers plus de 25 modèles (OpenAI, Anthropic, Google et autres) avec mise en cache et repli automatique.

Tarifs de l'API AssemblyAI

Pay-as-you-go facturé à l'heure d'audio traité, avec des tarifs distincts selon le modèle et le mode (pré-enregistré ou streaming). Des options s'ajoutent en supplément (diarisation, mode médical, masquage PII). LeMUR et le LLM Gateway sont facturés au token (entrée et sortie).

Universal-3 Pro pré-enregistré (par heure)

$0.21

Universal-2 pré-enregistré (par heure)

$0.15

Universal-Streaming (par heure)

$0.15

Universal-3 Pro Streaming (par heure)

$0.45

Voice Agent API tout inclus (par minute)

$0.075

Option diarisation des locuteurs (par heure, en supplément)

$0.02 à $0.12

Offre gratuite — 50 $ de crédits offerts à l'inscription, sans moyen de paiement requis, soit plusieurs centaines d'heures de transcription selon le modèle. Le débit du tier gratuit est limité (5 nouvelles connexions streaming par minute).

Authentification & intégration

Authentification par clé API transmise dans l'en-tête Authorization de chaque requête, générée depuis le tableau de bord ; la même clé donne accès au LLM Gateway.

API REST asynchrone pour la transcription pré-enregistrée : on soumet un fichier (URL ou upload), on interroge le statut puis on récupère le résultat ; webhooks disponibles. API WebSocket pour le streaming temps réel. SDK officiels Python, JavaScript et autres.

Cas d'usage de l'API AssemblyAI

Transcrire et résumer automatiquement des réunions, interviews ou podcasts.
Analyser des appels de centres de contact (sentiment, sujets, locuteurs) à grande échelle.
Ajouter une transcription temps réel à une application avec Universal-Streaming.
Interroger des transcriptions en langage naturel via LeMUR (questions-réponses, extraction).
Masquer automatiquement les données personnelles (PII) dans des enregistrements sensibles.
Sous-titrer des vidéos et générer des chapitres ou résumés automatiquement.

✓ Points forts

Transcription très précise avec plusieurs modèles selon le compromis coût/qualité.
Couche d'Audio Intelligence riche : résumé, sentiment, sujets, PII, diarisation.
LeMUR et LLM Gateway pour appliquer des LLM aux transcriptions sans intégration séparée.
Streaming temps réel à faible latence avec concurrence illimitée.
Crédits gratuits de 50 $ et SDK officiels pour démarrer sans engagement.

⚠ Limites

Le coût réel grimpe avec les options ajoutées (diarisation, mode médical, PII) facturées en supplément.
Le streaming haute précision (Universal-3 Pro Streaming) est nettement plus cher que le batch.
Produit orienté API : pas d'interface complète pour les utilisateurs non techniques.
Le débit du tier gratuit est limité, ce qui freine les tests à fort volume.

Questions fréquentes sur l'API AssemblyAI

AssemblyAI propose-t-il une offre gratuite ?

Oui, 50 $ de crédits sont offerts à l'inscription sans moyen de paiement requis, soit plusieurs centaines d'heures de transcription selon le modèle, avec un débit limité sur le tier gratuit.

Comment est facturée la transcription ?

À l'heure d'audio traité, avec des tarifs variant selon le modèle et le mode : par exemple 0,21 $/h pour Universal-3 Pro en batch, 0,15 $/h pour Universal-2 et 0,15 $/h pour Universal-Streaming.

Quelle authentification utilise l'API ?

Une clé API générée dans le tableau de bord et transmise dans l'en-tête Authorization de chaque requête ; la même clé sert aussi à accéder au LLM Gateway.

Qu'est-ce que LeMUR ?

LeMUR permet d'appliquer des grands modèles de langage aux transcriptions pour les résumer, répondre à des questions ou en extraire des informations structurées, facturé au token.

Peut-on transcrire en temps réel ?

Oui, Universal-Streaming offre une transcription temps réel à faible latence (~300 ms) via WebSocket, avec endpointing intelligent et concurrence illimitée, à 0,15 $/h.

Comment fonctionne la transcription d'un fichier ?

L'API est asynchrone : on soumet le fichier par URL ou upload, on interroge le statut de la tâche puis on récupère le résultat, avec des webhooks possibles pour être notifié de la fin.

Découvrir AssemblyAI →

Visiter AssemblyAI →

AssemblyAI API

Transcription précise et intelligence audio (résumé, sentiment, LLM) par API.

Que propose l'API AssemblyAI ?

Speech-to-Text (Universal)

Transcrit l'audio pré-enregistré avec les modèles Universal-3 Pro (haute précision) et Universal-2 (économique), avec ponctuation et diarisation.

Universal-Streaming

Transcription temps réel à faible latence (~300 ms) avec endpointing intelligent et concurrence illimitée, en anglais ou multilingue.

Audio Intelligence

Extrait des insights : résumé, analyse de sentiment, détection de sujets et d'entités, diarisation des locuteurs, masquage des données personnelles (PII).

LeMUR

Applique des grands modèles de langage aux transcriptions pour résumer, répondre à des questions ou extraire des informations structurées.

LLM Gateway

Passerelle unifiée vers plus de 25 modèles (OpenAI, Anthropic, Google et autres) avec mise en cache et repli automatique.

Tarifs de l'API AssemblyAI

Universal-3 Pro pré-enregistré (par heure)

$0.21

Universal-2 pré-enregistré (par heure)

$0.15

Universal-Streaming (par heure)

$0.15

Universal-3 Pro Streaming (par heure)

$0.45

Voice Agent API tout inclus (par minute)

$0.075

Option diarisation des locuteurs (par heure, en supplément)

$0.02 à $0.12

Authentification & intégration

Authentification par clé API transmise dans l'en-tête Authorization de chaque requête, générée depuis le tableau de bord ; la même clé donne accès au LLM Gateway.