Informar de fallo / Petición de características

Detección y diarización de hablantes

Identifique y etiquete automáticamente diferentes hablantes en sus transcripciones de audio y video. Sepa exactamente quién dijo qué.

Funciona con audio y vídeo de acceso público. El contenido protegido por DRM no es compatible.

Actualizar para mejorar

Transcripciones privadas

Charla con transcripción

Desbloquear con Pro →

Soltar archivo aquí o haga clic para navegar

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — hasta 2 GB

Cargar varios archivos por lotes con Pro

Actualizar para mejorar

Transcripciones privadas

Charla con transcripción

Desbloquear con Pro →

Actualizar para mejorar

Discurso en tiempo real al texto. IA corrige automáticamente mientras habla — la precisión mejora con un discurso más largo.

Pon a prueba tu micrófono primero

10 min/día gratis 600 min gratis con registro Sin tarjeta de crédito Cifrado

Inscríbete gratis →

¿Qué es la diarización de hablantes?

La diarización de hablantes es el proceso de dividir una secuencia de audio en segmentos según la identidad del hablante. En términos simples, responde a la pregunta «quién habló cuándo». This is essential for multi-speaker recordings like meetings, interviews, podcasts, conference calls, and legal proceedings where knowing who said what is just as important as what was said.

STT.ai uses advanced neural speaker diarization models that can detect and label speakers in real time. The system creates speaker embeddings -- numerical representations of each voice's unique characteristics -- and clusters them to distinguish between different people. This works even when speakers have similar voices or frequently interrupt each other.

Cómo funciona la detección de hablantes

1. Detección de actividad de voz

El sistema primero identifica qué segmentos del audio contienen habla frente a silencio, música o ruido de fondo.

2. Embedding de hablante

Cada segmento de habla se convierte en un embedding de hablante: un vector compacto que captura las características vocales únicas del hablante.

3. Agrupamiento y etiquetado

Los embeddings se agrupan para reunir segmentos del mismo hablante, luego a cada grupo se le asigna una etiqueta (Hablante 1, Hablante 2, etc.).

Casos de uso para detección de hablantes

Transcripción de reuniones

Etiquete automáticamente a cada participante en grabaciones de reuniones. Genere actas con atribución clara de quién dijo qué.

Transcripción de podcasts

Distinga entre presentador e invitados en episodios de podcast. Cree notas del programa con atribución correcta de hablantes.

Transcripción de entrevistas

Separe las respuestas del entrevistador y el entrevistado para investigación, periodismo y documentación de contratación.

Legal y cumplimiento

Cree registros oficiales de deposiciones, audiencias y llamadas de cumplimiento con identificación clara de hablantes.

Detección de hablantes en STT.ai

Speaker detection is available on all paid plans. When you transcribe audio or video with speaker detection enabled, the transcript will include speaker labels inline with the text. You can also export speaker-labeled transcripts in all supported formats including SRT, VTT, DOCX, JSON, and PDF.

Speaker 1 [00:00:01]: Welcome to the meeting, everyone. Let's start with the quarterly review. Speaker 2 [00:00:05]: Thanks. I have the numbers ready. Revenue is up 23% quarter over quarter. Speaker 1 [00:00:12]: That's great news. Can you walk us through the breakdown?

The system can detect up to 20 distinct speakers in a single recording. For best results, ensure each speaker has at least a few seconds of solo speech. Overlapping speech is handled but may reduce accuracy in heavily cross-talked segments.

Pruebe la detección de hablantes ahora

Suba una grabación con múltiples hablantes y vea cómo se etiquetan automáticamente.

Comenzar a transcribir gratis

Preguntas frecuentes

detección de altavoz se ejecuta en su navegador: pega una URL, carga un archivo o graba desde su micrófono. STT.ai elige el modelo de IA y devuelve la transcripción en menos de 5 minutos. Exportar como TXT, SRT, VTT, DOCX, JSON o PDF.

Sí — cada visitante tiene 600 minutos libres para comenzar en STT.ai, utilizable para detección de altavoz lo mismo que cualquier otro flujo de trabajo. Planes pagados a partir de $5 / mes desbloquear archivos más largos, transcripciones privadas y cola de prioridad.

detección de altavoz se ejecuta en los mismos modelos de IA que el resto de STT.ai — nuestros mejores modelos alcanzan 95-97% de precisión en voz limpia (3-5% de tasa de error de Word en los puntos de referencia).

detección de altavoz puede funcionar en cualquiera de los modelos de STT.ai 10+ — STT.ai Enhanced (más preciso), Whisper Large V3 (99 idiomas), NVIDIA Canary (#1 WER en langs soportados), Whisper Turbo (rápido), Moonshine (peso ligero), y más.

Sí. Cada transcripción exporta como SRT o VTT — trabaja con YouTube, Vimeo, TikTok, VLC, y cada reproductor de vídeo importante. La herramienta de subtítulos de grabación los superpone al vídeo como su-des.

Sí. Diarización de altavoz automáticamente etiqueta cada voz (hablador 1, altavoz 2,...) y puede cambiar el nombre en el editor incorporado. Funciona en todos los modelos y lenguajes.

La mayoría de los trabajos detección de altavoz terminan en menos de 5 minutos. Un archivo de audio de 1 hora normalmente se completa en 2-3 minutos con nuestros modelos más rápidos. La velocidad depende del modelo elegido y la carga actual de GPU.

detección de altavoz acepta más de 20 formatos — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, y más. Salida a TXT, SRT, VTT, DOCX, JSON, o PDF.

Sí. Los archivos de audio enviados a detección de altavoz se procesan y eliminan por defecto. Los planes Pro añaden cifrado del lado del cliente, incluso si se rompe la base de datos de STT.ai, sus transcripciones son ilegibles sin su clave. Los datos nunca se utilizan para la formación de modelos sin opt-in explícito.

Sí. STT.ai ofrece una API REST con Python y SDKs Node.js, además de un servidor MCP para Claude y Cursor, todo utilizable para flujos de trabajo detección de altavoz. El nivel de API gratuita incluye 100 minutos/mes.

Sí. Cada transcripción se abre en el editor integrado donde puede corregir palabras, cambiar el nombre de los altavoces, ajustar marcas de tiempo y añadir notas. Todos los cambios se guardan automáticamente.

Cada transcripción obtiene una URL compartida única. Exportar a DOCX o PDF para el correo electrónico. Planes Pro añadir enlaces permanentes y protegidos con contraseña — útiles para el trabajo del cliente.

STT.ai maneja 1.300 plataformas más, incluyendo YouTube, Vimeo, TikTok, SoundCloud, Zoom, Google Meet, hosts de podcasts, y más. La transcripción de URL funciona con contenido disponible únicamente para el público — fuentes protegidas por DRM no pueden ser transcritas.

Detección y diarización de hablantes

¿Qué es la diarización de hablantes?

Cómo funciona la detección de hablantes

1. Detección de actividad de voz

2. Embedding de hablante

3. Agrupamiento y etiquetado

Casos de uso para detección de hablantes

Detección de hablantes en STT.ai

Pruebe la detección de hablantes ahora

Preguntas frecuentes

¿Cómo funciona detección de altavoz en STT.ai?

Is detección de altavoz free?

¿Qué tan preciso es detección de altavoz?

¿Qué modelos de IA puedo utilizar para detección de altavoz?

¿Puedo obtener subtítulos de detección de altavoz?

¿Detecta detección de altavoz diferentes altavoces?

¿Cuánto tiempo tarda detección de altavoz?

¿Qué formatos de entrada soporta detección de altavoz?

¿Mi audio es privado cuando uso detección de altavoz?

¿Hay una API detección de altavoz?

¿Puedo editar una transcripción de detección de altavoz después?

¿Cómo puedo compartir lo que detección de altavoz produce?

¿Qué otras plataformas funcionan más allá de detección de altavoz?