Informar de fallo / Petición de características

Transcribe con Distil-Whisper

Name: Distil-Whisper
Author: Hugging Face

Funciona con audio y vídeo de acceso público. El contenido protegido por DRM no es compatible.

Actualizar para mejorar

Transcripciones privadas

Charla con transcripción

Desbloquear con Pro →

Soltar archivo aquí o haga clic para navegar

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — hasta 2 GB

Cargar varios archivos por lotes con Pro

Actualizar para mejorar

Transcripciones privadas

Charla con transcripción

Desbloquear con Pro →

Actualizar para mejorar

Discurso en tiempo real al texto. IA corrige automáticamente mientras habla — la precisión mejora con un discurso más largo.

Pon a prueba tu micrófono primero

10 min/día gratis 600 min gratis con registro Sin tarjeta de crédito Cifrado

Inscríbete gratis →

5.8%

WER

Idiomas

48.0x

Velocidad

MIT

Licencia

Acerca de Distil-Whisper

Distil-Whisper es una versión destilada de Whisper creada por Hugging Face. Reduce el tamaño del modelo en un 49% y logra una inferencia 6x más rápida manteniendo dentro del 1% WER de los conjuntos de evaluación originales Whisper Large V2 en fuera de distribución.

Idiomas apoyados por Distil-Whisper

Inglés

Español

Francés

Alemán

Chino

Japonés

Coreano

Portugués

Árabe

Hindi

Ruso

Italiano

Neerlandés

Turco

Polaco

Sueco

Indonesio

Tailandés

Vietnamita

Checo

Griego

Rumano

Húngaro

Hebreo

Danés

Finés

Noruego

Ucraniano

Malayo

Bengalí

Información del modelo

ProveedorHugging Face
Arquitectura-
LicenciaMIT
ActualizadoMar 2026

Modelos relacionados

3.2% WER

4.2% WER

5.1% WER

3.5% WER

7.8% WER

Preguntas frecuentes

Distil-Whisper es un modelo de voz a texto de Hugging Face. STT.ai aloja Distil-Whisper en nuestra infraestructura de GPU para que pueda usarlo sin aprovisionamiento de su propio hardware — subir audio o vídeo y elegir Distil-Whisper del selector de modelos.

En puntos de referencia estándar, Distil-Whisper alcanza alrededor de 5.8% tasa de error de Word. La precisión en el mundo real depende de la calidad de audio, el acento y el lenguaje; para grabaciones ruidosas o acentuadas, espere unos puntos porcentuales más alto WER.

Distil-Whisper funciona en el nivel gratuito de STT.ai — cada visitante tiene 600 minutos para empezar sin costo. Los planes pagados añaden límites por archivo más largos, transcripciones privadas y cola de prioridad.

Distil-Whisper es lanzado bajo MIT, una licencia de código abierto permisiva. Usted puede auto-anfitriona Distil-Whisper en su propio hardware o utilizar nuestra versión alojada — ambos son comercialmente utilizables.

Distil-Whisper admite 99 idiomas. La detección automática selecciona el idioma adecuado para la mayoría de audio; también puede especificarlo manualmente para un pequeño ascensor de precisión.

Distil-Whisper procesa audio en aproximadamente 48.0x en tiempo real en nuestras GPUs. Un archivo de audio de 1 hora termina en menos de 1 minutos; los archivos más largos cola y notificar por correo electrónico cuando se hace.

Distil-Whisper tiene parámetros 756M. Los modelos más grandes tienden a ser más precisos pero más lentos; STT.ai aloja Distil-Whisper en GPU para que el recuento de parámetros no afecte el rendimiento de su cliente.

Distil-Whisper acepta todos los soportes de formato STT.ai — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, y otros. Salida como TXT, SRT, VTT, DOCX, JSON o PDF.

Sí. Diarización del altavoz corre junto a Distil-Whisper para cada transcripción - cada altavoz está etiquetado y se puede cambiar el nombre en el editor después.

Sí. Distil-Whisper se ejecuta en nuestro entorno gestionado — audio se procesa y elimina por defecto y nunca se utiliza para el entrenamiento sin opt-in explícito. Planes Pro añadir cifrado del lado del cliente para transcripciones en reposo.

Utilice la herramienta compare-stt para ejecutar Distil-Whisper contra cualquier otro modelo soportado en el mismo audio: verá WER, conteo de segmentos, etiquetas de altavoz y puntuaciones de confianza lado a lado. La comparación Distil-Whisper vs Whisper Large V3 es la más común.

Sí. Especifique "distil-whisper" como parámetro de modelo en el endpoint /v1/transcribir. Los SDKs de Python y Node.js incluyen Distil-Whisper ejemplos. El nivel de API libre incluye 100 minutos/mes.

Sí. Debido a que Distil-Whisper es licenciada MIT, usted puede auto-anfitrionarlo. STT.ai's página de código abierto lista la repo proyecto y pesos. La mayoría de los equipos de producción utilizan nuestra versión alojada para saltarse la adquisición de GPU, modelos swaps, y ops.

Transcribe con Distil-Whisper

Acerca de Distil-Whisper

Idiomas apoyados por Distil-Whisper

Información del modelo

Modelos relacionados

Preguntas frecuentes

¿Qué es Distil-Whisper?

¿Qué tan exacto es Distil-Whisper?

¿Es Distil-Whisper libre de usar?

¿Qué licencia usa Distil-Whisper?

¿Cuántos idiomas soportan Distil-Whisper?

¿Qué tan rápido es Distil-Whisper?

¿Qué tan grande es el modelo Distil-Whisper?

¿Qué formatos de audio pueden transcribir Distil-Whisper?

¿Detecta Distil-Whisper varios altavoces?

¿Mis datos son privados al usar Distil-Whisper?

¿Cómo se compara Distil-Whisper con otros modelos STT?

¿Puedo utilizar Distil-Whisper a través de la API?

¿Puedo ejecutar Distil-Whisper en mi propio servidor?