Informar dun erro / Solicitar unha funcionalidade

Detección e diarisación do orador

Identifiquetiquete automaticamente diferentes oradores nas súas transcricións de son e vídeo. Saiba exactamente quen dixo que.

Funciona con son e vídeo dispoñíbeis publicamente. Non se admiten contidos protexidos con DRM.

Actualización para mellorado

Transcripción privada

Conversa con transcrición

Desbloquear con Pro →

Solte aquí o ficheiro ou prema para examinar

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — ata 2 GB

Enviar varios ficheiros en lote con Pro

Actualización para mellorado

Transcripción privada

Conversa con transcrición

Desbloquear con Pro →

Actualización para mellorado

Fala a texto en tempo real. A IA corrixe automaticamente mentres fala — a precisión mellora coa duración da fala.

Probe primeiro o micrófono

10 minutos libres/día 600 min gratis con rexistro Sen tarxeta de crédito Cifrado

Inscríbete gratis →

¿Qué es la diarización del hablante?

A diarización do falante é o proceso de dividir unha secuencia de son en segmentos segundo a identidade do falante. En termos máis simples, responde á pregunta « quen falou cando? » This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

Como funciona a detección de oradores

1. Detección da actividade da voz

O sistema identifica primeiro que segmentos de son conteñen fala versus silencio, música ou ruído de fondo.

2. Inserción de altofalante

Cada segmento de fala convértese nunha incrustación de falante -- un vector compacto que captura as características vocais únicas do falante.

3. Agrupamento e etiquetaxe

As incorporacións agrúpanse para agrupar segmentos do mesmo altofalante, entón a cada grupo asignáselle unha etiqueta (Altofalante 1, Altofalante 2, etc.).

Casos de uso para a detección de oradores

Transcrición da reunión

Etiquetar automaticamente a cada participante nas gravacións de reunións. Xerar actas con atribución clara de quen dixo que.

Transcrición de podcasts

Distingue entre anfitrión e convidados nos episodios de podcast. Crea notas de emisión con atribución axeitada do orador.

Entrevista

Separe as respostas do entrevistador e do entrevistado para a investigación, o xornalismo e a documentación de contratación.

Legal e cumprimento

Crea rexistros oficiais de deposicións, audiencias e chamadas de cumprimento con identificación clara do orador.

Detección de altofalantes en STT.ai

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

Probar agora a detección do altofalante

Envíe unha gravación con varios altofalantes e vexa os altofalantes etiquetados automaticamente.

Comezar a transcrición libre

Preguntas frecuentes

detección do altofalante executase no navegador: apega un URL, envía un ficheiro ou grava co micrófono. STT.ai escolle o modelo de IA e devolve a transcrición en menos de 5 minutos. Exporta como TXT, SRT, VTT, DOCX, JSON ou PDF.

Si, cada visitante recibe 600 minutos libres para comezar en STT.ai, utilizábeis para detección do altofalante igual que calquera outro fluxo de traballo. Os plans de pago que comezan en $5/ mes desbloquean ficheiros máis longos, transcricións privadas e filas prioritarias.

detección do altofalante funciona cos mesmos modelos de IA que o resto de STT.ai. Os nosos mellores modelos alcanzan o 95- 97% de precisión na fala clara (3- 5% de taxa de erros de palabra nos benchmarks). Troca de modelo ao instante se a primeira pasada está por baixo do obxectivo.

detección do altofalante pode executarse en calquera dos máis de 10 modelos de STT.ai: STT.ai Enhanced (máis preciso), Whisper Large V3 (99 linguas), NVIDIA Canary (# 1 WER nos lang soportados), Whisper Turbo (rápido), Moonshine (ligeiro) e máis.

Si. Todas as transcricións exportanse como SRT ou VTT, funciona con YouTube, Vimeo, TikTok, VLC e todos os principais reprodutores de vídeo. A ferramenta de gravación de subtítulos sobrepónos ao vídeo como subtítulos hardsub.

Si. A diarización dos oradores etiqueta automaticamente cada voz (Orador 1, Orador 2,...) e pode mudarlles o nome no editor incorporado. Funciona en todos os modelos e linguas.

A maioría dos detección do altofalante traballos rematan en menos de 5 minutos. Un ficheiro de son de 1 hora normalmente remata en 2- 3 minutos cos nosos modelos máis rápidos. A velocidade depende do modelo escollido e da carga actual da GPU.

detección do altofalante acepta máis de 20 formatos: MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI e outros. A saída é TXT, SRT, VTT, DOCX, JSON ou PDF.

Si. Os ficheiros de son enviados a detección do altofalante son procesados e eliminados por omisión. Os plans Pro engadirán cifrado do lado do cliente - mesmo se a base de datos de STT.ai é violada, as súas transcricións son ilexibles sen a súa chave. Os datos nunca se empregan para adestramento de modelos sen unha opción explícita.

Si. STT.ai ofrece unha API REST con SDK de Python e Node. js, ademais dun servidor MCP para Claude e Cursor, todo útil para detección do altofalante fluxos de traballo. O nivel de API gratuíto inclúe 100 minutos/ mes.

Si. Cada transcrición ábrese no editor incorporado onde pode corrixir palabras, mudar o nome dos oradores, axustar marcas de tempo e engadir notas. Todos os cambios gárdanse automaticamente.

Cada transcrición obtén un URL único compartible. Exportar a DOCX ou PDF para correo electrónico. Os plans Pro engadirán ligazóns permanentes e protexidas por contrasinal, útiles para o traballo do cliente.

STT.ai xestiona máis de 1300 plataformas, incluíndo YouTube, Vimeo, TikTok, SoundCloud, Zoom, Google Meet, hosts de podcasts e máis. A transcrición de URL só funciona con contidos dispoñibles publicamente; non se poden transcreber fontes protexidas por DRM.

Detección e diarisación do orador

¿Qué es la diarización del hablante?

Como funciona a detección de oradores

1. Detección da actividade da voz

2. Inserción de altofalante

3. Agrupamento e etiquetaxe

Casos de uso para a detección de oradores

Detección de altofalantes en STT.ai

Probar agora a detección do altofalante

Preguntas frecuentes

Como funciona detección do altofalante no STT.ai?

Está detección do altofalante libre?

Que tan preciso é detección do altofalante?

Que modelos de IA podo empregar para detección do altofalante?

Podo obter subtítulos de detección do altofalante?

Detecta detección do altofalante diferentes altofalantes?

Canto tempo leva detección do altofalante?

Que formatos de entrada admite detección do altofalante?

É privado o meu son cando uso detección do altofalante?

Existe unha API detección do altofalante?

Podo editar unha detección do altofalante transcrición despois?

Como podo compartir o que produce detección do altofalante?

Que outras plataformas funcionan máis aló de detección do altofalante?