Détection et diarisation des locuteurs
Identifiez et étiquetez automatiquement les différents locuteurs dans vos transcriptions audio et vidéo. Sachez exactement qui a dit quoi.
Qu'est-ce que la diarisation des locuteurs ?
La diarisation des locuteurs est le processus de division d'un flux audio en segments selon l'identité du locuteur. En termes simples, elle répond à la question « qui a parlé quand ? » This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.
STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.
Comment fonctionne la détection des locuteurs
1. Détection d'activité vocale
Le système identifie d'abord quels segments audio contiennent de la parole par rapport au silence, à la musique ou au bruit de fond.
2. Embedding du locuteur
Chaque segment de parole est converti en embedding de locuteur — un vecteur compact qui capture les caractéristiques vocales uniques du locuteur.
3. Regroupement et étiquetage
Les embeddings sont regroupés pour rassembler les segments du même locuteur, puis chaque groupe reçoit une étiquette (Locuteur 1, Locuteur 2, etc.).
Cas d'utilisation de la détection des locuteurs
Détection des locuteurs sur STT.ai
Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.
The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.
Essayez la détection des locuteurs maintenant
Téléchargez un enregistrement multi-locuteurs et voyez les locuteurs automatiquement étiquetés.
Commencer à transcrire gratuitement