Detección y diarización del altavoz

Identificar automáticamente y etiquetar diferentes altavoces en sus transcripciones de audio y vídeo. Saber exactamente quién dijo qué.

Cómo funciona →
Encriptación del lado del cliente — su transcripción será encriptada en su navegador antes de ser almacenada. El servidor procesa su audio para la transcripción, a continuación, el resultado se cifra localmente con su clave antes de guardar. (Todos los datos están siempre cifrados a través de HTTPS en tránsito.)
Speed varies by platform. Some transcripts are ready in seconds, others may take a few minutes depending on video length.
Soltar archivo aquí o haga clic para navegar
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — hasta 2 GB
Grabación: 0:00
En tiempo real Vosk (instante)
Mejorado Susurro (exacto)
Enlaces públicos: 24h, sólo texto · Inscríbete para 7d + audio · Pro para enlaces privados

Discurso en tiempo real al texto. IA corrige automáticamente mientras habla — la precisión mejora con un discurso más largo.

Pon a prueba tu micrófono primero
❤️ ¡Díselo a tus amigos!
Has usado tus transcripciones gratis.

Regístrese gratis para obtener 600 minutos / mes, o actualizar para transcripciones ilimitadas.

10 min/día gratis 600 min gratis con registro Sin tarjeta de crédito Cifrado
Inscríbete gratis →

¿Qué es la diarización del altavoz?

Diarización del altavoz es el proceso de partición de una corriente de audio en segmentos de acuerdo con la identidad del orador. En términos más simples, responde a la pregunta "¿quién habló cuándo?" This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

Cómo funciona la detección del altavoz

1. Detección de la actividad de voz

El sistema identifica primero qué segmentos de audio contienen voz versus silencio, música o ruido de fondo.

2. Embedding del orador

Cada segmento de voz se convierte en un altavoz integrado -- un vector compacto que captura las características vocales únicas del altavoz.

3. Agrupación y etiquetado

Los empotrados se agrupan en segmentos de grupo del mismo altavoz, luego se asigna a cada cluster una etiqueta (Speaker 1, Speaker 2, etc.).

Casos de uso para la detección de altavoces

Transcripción de la reunión
Etiquete automáticamente a cada participante en las grabaciones de las reuniones. Genere minutos con una clara atribución de quién dijo qué.
Transcripción de Podcast
Distinguir entre el anfitrión y los invitados en los episodios de podcast. Crear notas de demostración con la atribución de altavoz adecuada.
Transcripción de la entrevista
Respuestas separadas de entrevistador y entrevistado para investigación, periodismo y contratación de documentación.
Legal & Compliance
Cree registros oficiales de deposiciones, audiencias y llamadas de cumplimiento con una identificación clara de los oradores.

Detección de oradores en STT.ai

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

Prueba la detección de altavoces ahora

Cargue una grabación de varios altavoces y vea los altavoces automáticamente etiquetados.

Empieza a transcribir gratis

Preguntas frecuentes

Sube tu archivo de audio o video a STT.ai, selecciona el modelo de IA y haz clic en Transcribir. Exporta como TXT, SRT, VTT, DOCX, JSON o PDF.

¡Sí! STT.ai ofrece 600 minutos gratis al mes. No se requiere registro para tu primera transcripción.

La precisión depende del modelo de IA y la calidad del audio. Nuestros mejores modelos logran 93-95%+ de precisión.

STT.ai ofrece más de 10 modelos, incluyendo Whisper Large V3, NVIDIA Canary, y más. Puede comparar los resultados de diferentes modelos en el mismo archivo.

Sí. Después de transcribir, exporte su transcripción como archivos de subtítulos SRT o VTT. Estos funcionan con YouTube, Vimeo y todas las principales plataformas de vídeo.

Sí. STT.ai identifica y etiqueta automáticamente diferentes altavoces usando diarización de altavoces AI. Funciona en todos los modelos e idiomas.

La mayoría de los archivos son transcritos en menos de 5 minutos. Un archivo de audio de 1 hora normalmente toma 2-3 minutos con nuestros modelos más rápidos.

STT.ai admite más de 20 formatos de audio y vídeo, incluyendo MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM y AVI. Exportar como TXT, SRT, VTT, DOCX, JSON o PDF.

Sí. Los archivos de audio se procesan y eliminan después de la transcripción. Sus datos nunca se utilizan para la formación. El cifrado del lado del cliente es gratuito en todos los planes — cifra transcripciones almacenadas con una clave sólo que usted tiene. Durante el procesamiento, el servidor maneja su audio en texto plano. Conoce nuestra seguridad.

Sí. STT.ai ofrece una API REST con Python y SDKs Node.js. El nivel libre incluye 100 minutos/mes.

Sí. STT.ai incluye un editor de transcripciones integrado donde puede corregir errores, cambiar el nombre de los altavoces y ajustar las marcas de tiempo.

Cada transcripción obtiene un enlace compartible único. Exportar a DOCX o PDF por correo electrónico. Los planes Pro ofrecen enlaces permanentes y protegidos con contraseña.