Signaler la demande de bogue/caractère

Détection et diarisation des locuteurs

Identifiez et étiquetez automatiquement les différents locuteurs dans vos transcriptions audio et vidéo. Sachez exactement qui a dit quoi.

Fonctionne avec audio et vidéo accessibles au public. Le contenu protégé par DRM n'est pas pris en charge.

Mise à niveau pour amélioration

Transcription privée

Dialogue avec la transcription

Débloquer avec Pro →

Déposer le fichier ici ou cliquer pour parcourir

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — jusqu'à 2 Go

Téléchargement par lots de plusieurs fichiers avec Pro

Mise à niveau pour amélioration

Transcription privée

Dialogue avec la transcription

Débloquer avec Pro →

Mise à niveau pour amélioration

La parole en temps réel au texte. L'IA corrige automatiquement lorsque vous parlez — la précision s'améliore avec la parole plus longue.

Testez d'abord votre microphone

10 min/jour gratuit 600 min sans inscription Pas de carte de crédit Chiffres

Inscrivez-vous gratuitement →

Qu'est-ce que la diarisation des locuteurs ?

La diarisation des locuteurs est le processus de division d'un flux audio en segments selon l'identité du locuteur. En termes simples, elle répond à la question « qui a parlé quand ? » This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

Comment fonctionne la détection des locuteurs

1. Détection d'activité vocale

Le système identifie d'abord quels segments audio contiennent de la parole par rapport au silence, à la musique ou au bruit de fond.

2. Embedding du locuteur

Chaque segment de parole est converti en embedding de locuteur — un vecteur compact qui capture les caractéristiques vocales uniques du locuteur.

3. Regroupement et étiquetage

Les embeddings sont regroupés pour rassembler les segments du même locuteur, puis chaque groupe reçoit une étiquette (Locuteur 1, Locuteur 2, etc.).

Cas d'utilisation de la détection des locuteurs

Transcription de réunions

Étiquetez automatiquement chaque participant dans les enregistrements de réunions. Générez des procès-verbaux avec attribution claire de qui a dit quoi.

Transcription de podcasts

Distinguez l'animateur des invités dans les épisodes de podcast. Créez des notes d'émission avec attribution correcte des locuteurs.

Transcription d'entretiens

Séparez les réponses de l'intervieweur et de l'interviewé pour la recherche, le journalisme et la documentation RH.

Juridique et conformité

Créez des registres officiels de dépositions, audiences et appels de conformité avec identification claire des locuteurs.

Détection des locuteurs sur STT.ai

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

Essayez la détection des locuteurs maintenant

Téléchargez un enregistrement multi-locuteurs et voyez les locuteurs automatiquement étiquetés.

Commencer à transcrire gratuitement

Questions fréquemment posées

Détection des haut-parleurs fonctionne dans votre navigateur : collez une URL, téléchargez un fichier ou enregistrez depuis votre micro. STT.ai choisit le modèle AI et retourne la transcription en moins de 5 minutes. Exportez en TXT, SRT, VTT, DOCX, JSON ou PDF.

Oui — chaque visiteur obtient 600 minutes gratuites pour démarrer sur STT.ai, utilisable pour Détection des haut-parleurs la même chose que tout autre workflow. Plans payants à partir de 5 $/mois déverrouiller les fichiers plus longs, les transcriptions privées, et la file d'attente prioritaire.

Détection des haut-parleurs fonctionne sur les mêmes modèles d'IA que le reste de STT.ai — nos meilleurs modèles atteignent 95-97% de précision sur la parole propre (3-5% Word Error Rate sur les repères).

Détection des haut-parleurs peut fonctionner sur n'importe lequel des modèles de STT.ai 10+ — STT.ai Enhanced (plus précis), Whisper Large V3 (99 langues), NVIDIA Canary (#1 WER sur les langs pris en charge), Whisper Turbo (fast), Moonshine (léger), et plus encore.

Oui. Chaque transcription exporte comme SRT ou VTT — fonctionne avec YouTube, Vimeo, TikTok, VLC, et chaque lecteur vidéo majeur. L'outil de sous-titres de gravure les superpose sur la vidéo comme des sous-titres durs.

Oui. La diarisation des haut-parleurs marque automatiquement chaque voix (Parleur 1, Haut-parleur 2,...) et vous pouvez les renommer dans l'éditeur intégré. Fonctionne dans tous les modèles et langues.

La plupart des tâches Détection des haut-parleurs finissent en moins de 5 minutes. Un fichier audio d'une heure complète généralement en 2-3 minutes avec nos modèles les plus rapides. La vitesse dépend du modèle choisi et de la charge GPU actuelle.

Détection des haut-parleurs accepte les formats 20+ — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, et plus. Sortie vers TXT, SRT, VTT, DOCX, JSON ou PDF.

Oui. Les fichiers audio soumis à Détection des haut-parleurs sont traités et supprimés par défaut. Les plans Pro ajoutent le chiffrement côté client — même si la base de données de STT.ai est violée, vos transcriptions sont illisibles sans votre clé. Les données ne sont jamais utilisées pour la formation du modèle sans opt-in explicite.

Oui. STT.ai offre une API REST avec des SDKs Python et Node.js, plus un serveur MCP pour Claude et Cursor — tous utilisables pour les workflows Détection des haut-parleurs. Le niveau d'API gratuit comprend 100 minutes/mois.

Oui. Chaque transcription s'ouvre dans l'éditeur intégré où vous pouvez corriger les mots, renommer les haut-parleurs, ajuster les horodatages et ajouter des notes. Tous les changements s'enregistrent automatiquement.

Chaque transcription reçoit une URL partagée unique. Exporter vers DOCX ou PDF pour l'email. Les plans pro ajoutent des liens permanents et protégés par mot de passe – utiles pour le travail du client.

STT.ai gère plus de 1300 plateformes dont YouTube, Vimeo, TikTok, SoundCloud, Zoom, Google Meet, podcast hosts, etc. La transcription des URL fonctionne avec du contenu accessible au public seulement — les sources protégées par DRM ne peuvent pas être transcrites.

Détection et diarisation des locuteurs

Qu'est-ce que la diarisation des locuteurs ?

Comment fonctionne la détection des locuteurs

1. Détection d'activité vocale

2. Embedding du locuteur

3. Regroupement et étiquetage

Cas d'utilisation de la détection des locuteurs

Détection des locuteurs sur STT.ai

Essayez la détection des locuteurs maintenant

Questions fréquemment posées

Comment Détection des haut-parleurs fonctionne-t-il sur STT.ai?

Est-ce que Détection des haut-parleurs est libre?

Quelle est la précision Détection des haut-parleurs?

Quels modèles d'IA puis-je utiliser pour Détection des haut-parleurs?

Puis-je obtenir des sous-titres de Détection des haut-parleurs?

Est-ce que Détection des haut-parleurs détecte différents haut-parleurs?

Combien de temps Détection des haut-parleurs prend-il?

Quels formats d'entrées Détection des haut-parleurs supporte-t-il?

Mon audio est-il privé lorsque j'utilise Détection des haut-parleurs?

Y a-t-il une API Détection des haut-parleurs?

Puis-je modifier une transcription Détection des haut-parleurs après?

Comment puis-je partager ce que Détection des haut-parleurs produit?

Quelles autres plateformes fonctionnent au-delà de Détection des haut-parleurs?