FREUDIX/Studio
Tableau de bord
freudix.academy
SEO
Les bases du SEOLocal SEOProgrammatic SEOCréer un PBNAutomatiser vos réseaux de sitesTrouver un domaine expiré
Business
Site d'affiliationVente de liensCréer un programme d'affiliation
YouTube
Créer une chaîne YouTubeCréer des vidéos IACréer des musiques IAMontage vidéo (Capcut)
Claude Code
Créer des agents IACréer des SkillsCréer un workflow avec Claude CoWork
Dev
Installer une IA en localVidéos motion designCréer un jeu navigateurCréer une extension ChromeCréer une app PC
VidéosKeyword SEODatasets & ListesWebsite CheckerAffiliation FinderSEO Spots FinderAPIs FinderMCP FinderWorkflows.mdMes Skills.mdMes agents.mdMes OutilsMes templates
Le studio
À proposRoadmapAI Team
Mentions·Confidentialité
Accueil · APIs Finder · Audio & voix · AssemblyAI
A
AssemblyAI
Audio & voix
Tarification
Freemium
Authentification
Clé API
Catégorie
Audio & voix
Accéder à AssemblyAI →
→ Créer un compte→ Documentation officielle
← Toutes les APIs de données
Aperçu du site AssemblyAIVisiter AssemblyAI →

AssemblyAI API

Transcription précise et intelligence audio (résumé, sentiment, LLM) par API.

AssemblyAI est une plateforme d'IA vocale dont l'API couvre la transcription audio (speech-to-text) avec ses modèles Universal, en mode pré-enregistré comme en streaming temps réel, ainsi qu'une couche d'Audio Intelligence (résumé, analyse de sentiment, détection de sujets, diarisation, masquage des données personnelles) et LeMUR, qui applique des grands modèles de langage aux transcriptions. Elle s'adresse aux développeurs qui veulent transcrire et analyser de l'audio à grande échelle, bâtir des agents vocaux ou extraire des insights de fichiers audio et vidéo.

Que propose l'API AssemblyAI ?

Speech-to-Text (Universal)
Transcrit l'audio pré-enregistré avec les modèles Universal-3 Pro (haute précision) et Universal-2 (économique), avec ponctuation et diarisation.
Universal-Streaming
Transcription temps réel à faible latence (~300 ms) avec endpointing intelligent et concurrence illimitée, en anglais ou multilingue.
Audio Intelligence
Extrait des insights : résumé, analyse de sentiment, détection de sujets et d'entités, diarisation des locuteurs, masquage des données personnelles (PII).
LeMUR
Applique des grands modèles de langage aux transcriptions pour résumer, répondre à des questions ou extraire des informations structurées.
LLM Gateway
Passerelle unifiée vers plus de 25 modèles (OpenAI, Anthropic, Google et autres) avec mise en cache et repli automatique.

Tarifs de l'API AssemblyAI

Pay-as-you-go facturé à l'heure d'audio traité, avec des tarifs distincts selon le modèle et le mode (pré-enregistré ou streaming). Des options s'ajoutent en supplément (diarisation, mode médical, masquage PII). LeMUR et le LLM Gateway sont facturés au token (entrée et sortie).

Universal-3 Pro pré-enregistré (par heure)
$0.21
Universal-2 pré-enregistré (par heure)
$0.15
Universal-Streaming (par heure)
$0.15
Universal-3 Pro Streaming (par heure)
$0.45
Voice Agent API tout inclus (par minute)
$0.075
Option diarisation des locuteurs (par heure, en supplément)
$0.02 à $0.12

Offre gratuite — 50 $ de crédits offerts à l'inscription, sans moyen de paiement requis, soit plusieurs centaines d'heures de transcription selon le modèle. Le débit du tier gratuit est limité (5 nouvelles connexions streaming par minute).

Authentification & intégration

Authentification par clé API transmise dans l'en-tête Authorization de chaque requête, générée depuis le tableau de bord ; la même clé donne accès au LLM Gateway.

API REST asynchrone pour la transcription pré-enregistrée : on soumet un fichier (URL ou upload), on interroge le statut puis on récupère le résultat ; webhooks disponibles. API WebSocket pour le streaming temps réel. SDK officiels Python, JavaScript et autres.

Cas d'usage de l'API AssemblyAI

  • Transcrire et résumer automatiquement des réunions, interviews ou podcasts.
  • Analyser des appels de centres de contact (sentiment, sujets, locuteurs) à grande échelle.
  • Ajouter une transcription temps réel à une application avec Universal-Streaming.
  • Interroger des transcriptions en langage naturel via LeMUR (questions-réponses, extraction).
  • Masquer automatiquement les données personnelles (PII) dans des enregistrements sensibles.
  • Sous-titrer des vidéos et générer des chapitres ou résumés automatiquement.

✓ Points forts

  • Transcription très précise avec plusieurs modèles selon le compromis coût/qualité.
  • Couche d'Audio Intelligence riche : résumé, sentiment, sujets, PII, diarisation.
  • LeMUR et LLM Gateway pour appliquer des LLM aux transcriptions sans intégration séparée.
  • Streaming temps réel à faible latence avec concurrence illimitée.
  • Crédits gratuits de 50 $ et SDK officiels pour démarrer sans engagement.

⚠ Limites

  • Le coût réel grimpe avec les options ajoutées (diarisation, mode médical, PII) facturées en supplément.
  • Le streaming haute précision (Universal-3 Pro Streaming) est nettement plus cher que le batch.
  • Produit orienté API : pas d'interface complète pour les utilisateurs non techniques.
  • Le débit du tier gratuit est limité, ce qui freine les tests à fort volume.

Questions fréquentes sur l'API AssemblyAI

AssemblyAI propose-t-il une offre gratuite ?

Oui, 50 $ de crédits sont offerts à l'inscription sans moyen de paiement requis, soit plusieurs centaines d'heures de transcription selon le modèle, avec un débit limité sur le tier gratuit.

Comment est facturée la transcription ?

À l'heure d'audio traité, avec des tarifs variant selon le modèle et le mode : par exemple 0,21 $/h pour Universal-3 Pro en batch, 0,15 $/h pour Universal-2 et 0,15 $/h pour Universal-Streaming.

Quelle authentification utilise l'API ?

Une clé API générée dans le tableau de bord et transmise dans l'en-tête Authorization de chaque requête ; la même clé sert aussi à accéder au LLM Gateway.

Qu'est-ce que LeMUR ?

LeMUR permet d'appliquer des grands modèles de langage aux transcriptions pour les résumer, répondre à des questions ou en extraire des informations structurées, facturé au token.

Peut-on transcrire en temps réel ?

Oui, Universal-Streaming offre une transcription temps réel à faible latence (~300 ms) via WebSocket, avec endpointing intelligent et concurrence illimitée, à 0,15 $/h.

Comment fonctionne la transcription d'un fichier ?

L'API est asynchrone : on soumet le fichier par URL ou upload, on interroge le statut de la tâche puis on récupère le résultat, avec des webhooks possibles pour être notifié de la fin.

Découvrir AssemblyAI →

Autres APIs Audio & voix

Aperçu ElevenLabs
ElevenLabs
Synthèse vocale IA réaliste et clonage de voix multilingue via API.
Aperçu Deepgram
Deepgram
Transcription audio en texte rapide et synthèse vocale par IA via API.
Aperçu Murf
Murf
Synthèse vocale IA de qualité studio avec voix multilingues via API.
Aperçu Play.ht
Play.ht
Génération de voix off IA réalistes et clonage vocal en streaming via API.
Aperçu Speechmatics
Speechmatics
Transcription vocale précise multilingue, en temps réel ou par lot, via API.
Aperçu Rev AI
Rev AI
Transcription et sous-titrage audio/vidéo par IA, asynchrone et temps réel, via API.
Outils
  • Recherche de mots-clés
  • Datasets & Listes
  • Analyseur de site
  • SEO Spots Finder
Annuaires
  • APIs Finder
  • Outils sélectionnés
  • Programmes d'affiliation
  • Vente de liens
Claude Code
  • Skills
  • Agents IA
  • Templates
  • Freudix Academy
Newsletter

Nouveaux outils, formations et mises à jour — direct dans ta boîte.

Zéro spam · désabonnement en 1 clic.

FREUDIX/Studio— outils SEO & business gratuitsMentions légalesConfidentialité