Detecção e diarização de falantes
Identifique e rotule automaticamente diferentes falantes em suas transcrições de áudio e vídeo. Saiba exatamente quem disse o quê.
O que é diarização de falantes?
Diarização de falantes é o processo de dividir um fluxo de áudio em segmentos de acordo com a identidade do falante. Em termos simples, responde à pergunta «quem falou quando?» This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.
STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.
Como funciona a detecção de falantes
1. Detecção de atividade vocal
O sistema primeiro identifica quais segmentos de áudio contêm fala versus silêncio, música ou ruído de fundo.
2. Embedding do falante
Cada segmento de fala é convertido em um embedding de falante — um vetor compacto que captura as características vocais únicas do falante.
3. Agrupamento e rotulagem
Os embeddings são agrupados para reunir segmentos do mesmo falante, e cada grupo recebe um rótulo (Falante 1, Falante 2, etc.).
Casos de uso para detecção de falantes
Detecção de falantes no STT.ai
Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.
The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.
Experimente a detecção de falantes agora
Envie uma gravação com múltiplos falantes e veja-os rotulados automaticamente.
Comece a transcrever grátis