Informar de Bug / Pedido de Feature

Detecção e diarização de falantes

Identifique e rotule automaticamente diferentes falantes em suas transcrições de áudio e vídeo. Saiba exatamente quem disse o quê.

Funciona com áudio e vídeo disponível publicamente. O conteúdo protegido por DRM não é suportado.

Atualização para Melhorado

Transcrição privada

Conversa com transcrição

Desbloquear com Pro →

Deixe aqui o arquivo ou clique para navegar

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — até 2GB

Lote de upload múltiplos arquivos com Pro

Atualização para Melhorado

Transcrição privada

Conversa com transcrição

Desbloquear com Pro →

Atualização para Melhorado

A fala em tempo real ao texto. A IA auto-correge ao mesmo tempo que você fala — a precisão melhora com a fala mais longa.

Teste o seu microfone primeiro

10 min/dia livre 600 min livre com inscrição Não há cartão de crédito Cifrado

Inscrever-se gratuitamente →

O que é diarização de falantes?

Diarização de falantes é o processo de dividir um fluxo de áudio em segmentos de acordo com a identidade do falante. Em termos simples, responde à pergunta «quem falou quando?» This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

Como funciona a detecção de falantes

1. Detecção de atividade vocal

O sistema primeiro identifica quais segmentos de áudio contêm fala versus silêncio, música ou ruído de fundo.

2. Embedding do falante

Cada segmento de fala é convertido em um embedding de falante — um vetor compacto que captura as características vocais únicas do falante.

3. Agrupamento e rotulagem

Os embeddings são agrupados para reunir segmentos do mesmo falante, e cada grupo recebe um rótulo (Falante 1, Falante 2, etc.).

Casos de uso para detecção de falantes

Transcrição de reuniões

Rotule automaticamente cada participante em gravações de reuniões. Gere atas com atribuição clara de quem disse o quê.

Transcrição de podcasts

Distinga entre apresentador e convidados em episódios de podcast. Crie notas do programa com atribuição correta de falantes.

Transcrição de entrevistas

Separe as respostas do entrevistador e do entrevistado para pesquisa, jornalismo e documentação de contratação.

Jurídico e conformidade

Crie registros oficiais de deposições, audiências e chamadas de conformidade com identificação clara de falantes.

Detecção de falantes no STT.ai

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

Experimente a detecção de falantes agora

Envie uma gravação com múltiplos falantes e veja-os rotulados automaticamente.

Comece a transcrever grátis

Perguntas frequentes

Detecção de alto-falantes executa no seu navegador: cole uma URL, upload um arquivo ou registro de seu mic. STT.ai escolhe o modelo IA e retorna a transcrição em menos de 5 minutos. Exporte como TXT, SRT, VTT, DOCX, JSON ou PDF.

Sim — cada visitante recebe 600 minutos livres para começar em STT.ai, utilizável para Detecção de alto-falantes o mesmo que qualquer outro fluxo de trabalho. Planos pagos a partir de 5 dólares/mes desbloquear arquivos mais longos, transcrições privadas e fila de espera prioritária.

Detecção de alto-falantes funciona nos mesmos modelos de IA que o resto de STT.ai — nossos melhores modelos chegam a 95-97% de precisão em fala limpa (3-5% de taxa de erro de Word em índices de referência).

Detecção de alto-falantes pode funcionar em qualquer um dos 10+ modelos STT.ai — STT.ai Melhorados (mais precisos), Whisper Grande V3 (99 idiomas), NVIDIA Canary (#1 WER em langs suportados), Whisper Turbo (rápido), Moonshine (peso leve), e muito mais.

Sim. Cada transcrição exporta como SRT ou VTT — funciona com YouTube, Vimeo, TikTok, VLC e todos os principais reprodutores de vídeo. A ferramenta queima-subtítulos os sobrepõe em vídeo como hardsubs.

Sim. Diarização de falantes automaticamente etiqueta cada voz (Alvo 1, Falador 2,...) e você pode renomeá-las no editor incorporado. Funciona em todos os modelos e idiomas.

A maioria de Detecção de alto-falantes trabalhos termina em menos de 5 minutos. Um arquivo de áudio de 1 hora geralmente se completa em 2-3 minutos com os nossos modelos mais rápidos. A velocidade depende do modelo escolhido e da carga atual da GPU.

Detecção de alto-falantes aceita 20+ formatos — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, e muito mais. Saída para TXT, SRT, VTT, DOCX, JSON ou PDF.

Sim. Os arquivos de áudio enviados a Detecção de alto-falantes são processados e excluídos por padrão. Pro planos adicionar criptografia do lado do cliente — mesmo que o banco de dados de STT.ai seja violado, suas transcrições são ilegíveis sem sua chave. Os dados nunca são usados para o treinamento de modelos sem opt-in explícito.

Sim. STT.ai oferece uma API REST com Python e Node.js SDKs, mais um servidor MCP para Claude e Cursor — tudo utilizável para Detecção de alto-falantes fluxos de trabalho. O nível de API grátis inclui 100 minutos/mes.

Sim. Cada transcrição abre no editor incorporado onde você pode corrigir palavras, renomear altofalantes, ajustar selos de tempo e adicionar notas. Todas as alterações salvem automaticamente.

Cada transcrição recebe uma URL compartilhável única. Exporta para DOCX ou PDF para e-mail. Pro planos adicionar links protegidos por senha e permanentes — útil para o trabalho do cliente.

STT.ai manipula mais de 1.300 plataformas, incluindo YouTube, Vimeo, TikTok, SoundCloud, Zoom, Google Meet, hosts de podcast, e muito mais. Transcripcion de URL funciona com conteúdo disponível apenas — fontes protegidas pelo DRM não podem ser transcritas.

Detecção e diarização de falantes

O que é diarização de falantes?

Como funciona a detecção de falantes

1. Detecção de atividade vocal

2. Embedding do falante

3. Agrupamento e rotulagem

Casos de uso para detecção de falantes

Detecção de falantes no STT.ai

Experimente a detecção de falantes agora

Perguntas frequentes

Como funciona Detecção de alto-falantes em STT.ai?

É Detecção de alto-falantes grátis?

Quão precisa é Detecção de alto-falantes?

Que modelos de IA posso usar para Detecção de alto-falantes?

Posso obter legendas de Detecção de alto-falantes?

Detecção de alto-falantes detecta diferentes alto-falantes?

Quanto tempo tarda Detecção de alto-falantes?

Que formatos de entrada suporta Detecção de alto-falantes?

O meu áudio é privado quando uso Detecção de alto-falantes?

Existe uma API Detecção de alto-falantes?

Posso editar uma transcrição Detecção de alto-falantes depois?

Como compartilho o que Detecção de alto-falantes produz?

Que outras plataformas funcionam além de Detecção de alto-falantes?