Detecção e diarização de alto-falantes

Identificar e etiquetar automaticamente diferentes alto-falantes em suas transcrições de áudio e vídeo. Saiba exatamente quem disse o que.

Como funciona →
Cifração de zero conhecimento em — sua transcrição é cifrada no seu navegador antes que ele chegue aos nossos servidores. Mesmo que não possamos le-lo. (Todos os dados são sempre criptografados através do HTTPS em trânsito.)
Speed varies by platform. Some transcripts are ready in seconds, others may take a few minutes depending on video length.
Deixe aqui o arquivo ou clique para navegar
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — até 2GB
Gravação: 0:00
Em tempo real Vosk (instante)
Melhorado Whisper (exacto)
Ligações públicas: 24h, texto apenas · Inscrever-se para 7d + áudio · Pro para as ligações privadas

A fala em tempo real ao texto. A IA auto-correge ao mesmo tempo que você fala — a precisão melhora com a fala mais longa.

Teste o seu microfone primeiro
❤️ Diz aos teus amigos!
Usaste as transcrições livres.

Inscreva-se gratuitamente para obter 600 minutos/mes, ou atualização para transcrições ilimitadas.

10 min/dia livre 600 min livre com inscrição Não há cartão de crédito Cifrado
Inscrever-se gratuitamente →

O que é a diarização do orador?

A diarização do alto-falante é o processo de partição de um fluxo de áudio em segmentos de acordo com a identidade do alto-falante. Em termos mais simples, responde a pergunta "quem falou quando?" This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

Como funciona a detecção de falantes

1. Detecção de Actividade de Voz

O sistema identifica primeiro quais segmentos de áudio contêm fala versus silêncio, música ou ruído de fundo.

2. Incorporação do orador

Cada segmento de fala é convertido em uma incorporação de alto-falante -- um vetor compacto que capta as características vocais únicas do alto-falante.

3. Agrupamento e rotulagem

Os encaixes são agrupados para grupos segmentos do mesmo alto-falante juntos, em seguida, cada cluster é atribuído um rótulo (Speaker 1, Speaker 2, etc.).

Casos de utilização para detecção de alto-falantes

Transcrição da reunião
Etiquete automaticamente cada participante nas gravações de reunião. Gere minutos com atribuição clara de quem disse o quê.
Transcrição de Podcast
Distinção entre hospedeiro e hóspedes em episódios de podcast. Criar notas de exibição com atribuição adequada de alto-falante.
Entrevista Transcrição
Entrevistador separado e respostas entrevistadas para pesquisa, jornalismo e documentação de contratação.
Legal e conformidade
Crie registros oficiais de deposições, audições e chamadas de conformidade com identificação clara de alto-falante.

Detecção de alto-falante em STT.ai

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

Tente detecção de alto-falante agora

Carregue uma gravação multi-falante e veja alto-falantes automaticamente rotulados.

Comece a traduzir Gratuito

Perguntas Frequentes

Faça upload do seu arquivo de áudio ou vídeo no STT.ai, selecione o modelo de IA e clique em Transcrever. Exporte como TXT, SRT, VTT, DOCX, JSON ou PDF.

Sim! O STT.ai oferece 600 minutos grátis por mês. Sem necessidade de cadastro. Planos pagos a partir de $5/mês.

A precisão depende do modelo de IA e qualidade do áudio. Nossos melhores modelos alcançam 93-95%+ de precisão.

O STT.ai oferece 10+ modelos incluindo Whisper Large V3, NVIDIA Canary, e muito mais. Você pode comparar resultados de diferentes modelos no mesmo arquivo.

Sim. Depois de transcrição, exporte sua transcrição como arquivos de subtítulos SRT ou VTT. Estes funcionam com YouTube, Vimeo e todas as principais plataformas de vídeo.

Sim. STT.ai identifica automaticamente e etiqueta diferentes alto-falantes usando a diarização de alto-falantes IA. Funciona em todos os modelos e idiomas.

A maioria dos arquivos são transcritos em menos de 5 minutos. Um arquivo de áudio de 1 hora geralmente leva 2-3 minutos com os nossos modelos mais rápidos.

O STT.ai suporta 20+ formatos de áudio e vídeo, incluindo MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM e AVI. Exportar como TXT, SRT, VTT, DOCX, JSON ou PDF.

Sim. Os arquivos de áudio são processados e excluídos após a transcrição. Seus dados nunca são usados para treinamento. A criptografia do lado do cliente é livre em todos os planos — ele cifra transcrições armazenadas com uma chave apenas você tem. Durante o processamento, o servidor manipula seu áudio em texto simples. Saiba sobre nossa segurança.

Sim. O STT.ai oferece uma API REST com Python e Node.js SDKs. O nível gratuito inclui 100 minutos/mês.

Sim. O STT.ai inclui um editor de transcrições incorporado onde você pode corrigir erros, renomear alto-falantes e ajustar selos de tempo.

Cada transcrição recebe um link compartilhável único. Exporta para DOCX ou PDF para e-mail. Pro planos oferecem links protegidos por senha e permanentes.