Transcribir con Distil-Whisper

Funciona con audio y vídeo de acceso público. El contenido protegido por DRM no es compatible.

Actualizar para mejorar
Private transcript
Charla con transcripción
Desbloquear con Pro →
Soltar archivo aquí o haga clic para navegar
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — hasta 2 GB
Actualizar para mejorar
Private transcript
Charla con transcripción
Desbloquear con Pro →
Actualizar para mejorar
Grabación: 0:00
En tiempo real Vosk (instante)
Mejorado Susurro (exacto)
Enlaces públicos: 24h, sólo texto · Inscríbete para 7d + audio · Pro para enlaces privados

Discurso en tiempo real al texto. IA corrige automáticamente mientras habla — la precisión mejora con un discurso más largo.

Pon a prueba tu micrófono primero
❤️ ¡Díselo a tus amigos!
Has usado tus transcripciones gratis.

Regístrese gratis para obtener 600 minutos / mes, o actualizar para transcripciones ilimitadas.

10 min/día gratis 600 min gratis con registro Sin tarjeta de crédito Cifrado
Inscríbete gratis →
5.8%
WER
99
Languages
48.0x
Speed
MIT
License

Acerca de Distil-Whisper

Distil-Whisper is a distilled version of Whisper created by Hugging Face. It reduces the model size by 49% and achieves 6x faster inference while maintaining within 1% WER of the original Whisper Large V2 on out-of-distribution evaluation sets.

Preguntas frecuentes

Distil-Whisper es un modelo de voz a texto de Hugging Face. STT.ai aloja Distil-Whisper en nuestra infraestructura de GPU para que pueda usarlo sin aprovisionamiento de su propio hardware — subir audio o vídeo y elegir Distil-Whisper del selector de modelos.

En puntos de referencia estándar, Distil-Whisper alcanza alrededor de 5.8% tasa de error de Word. La precisión en el mundo real depende de la calidad de audio, el acento y el lenguaje; para grabaciones ruidosas o acentuadas, espere unos puntos porcentuales más alto WER.

Distil-Whisper funciona en el nivel gratuito de STT.ai — cada visitante recibe 600 minutos / mes sin costo. Los planes pagados añaden límites por archivo más largos, transcripciones privadas y cola de prioridad.

Distil-Whisper es lanzado bajo MIT, una licencia de código abierto permisiva. Usted puede auto-anfitriona Distil-Whisper en su propio hardware o utilizar nuestra versión alojada — ambos son comercialmente utilizables.

Distil-Whisper admite 99 idiomas. La detección automática selecciona el idioma adecuado para la mayoría de audio; también puede especificarlo manualmente para un pequeño ascensor de precisión.

Distil-Whisper procesa audio en aproximadamente 48.0x en tiempo real en nuestras GPUs. Un archivo de audio de 1 hora termina en menos de 1 minutos; los archivos más largos cola y notificar por correo electrónico cuando se hace.

Distil-Whisper tiene parámetros 756M. Los modelos más grandes tienden a ser más precisos pero más lentos; STT.ai aloja Distil-Whisper en GPU para que el recuento de parámetros no afecte el rendimiento de su cliente.

Distil-Whisper acepta todos los soportes de formato STT.ai — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, y otros. Salida como TXT, SRT, VTT, DOCX, JSON o PDF.

Sí. Diarización del altavoz corre junto a Distil-Whisper para cada transcripción - cada altavoz está etiquetado y se puede cambiar el nombre en el editor después.

Sí. Distil-Whisper se ejecuta en nuestro entorno gestionado — audio se procesa y elimina por defecto y nunca se utiliza para el entrenamiento sin opt-in explícito. Planes Pro añadir cifrado del lado del cliente para transcripciones en reposo.

Utilice la herramienta compare-stt para ejecutar Distil-Whisper contra cualquier otro modelo soportado en el mismo audio: verá WER, conteo de segmentos, etiquetas de altavoz y puntuaciones de confianza lado a lado. La comparación Distil-Whisper vs Whisper Large V3 es la más común.

Sí. Especifique "distil-whisper" como parámetro de modelo en el endpoint /v1/transcribir. Los SDKs de Python y Node.js incluyen Distil-Whisper ejemplos. El nivel de API libre incluye 100 minutos/mes.

Sí. Debido a que Distil-Whisper es licenciada MIT, usted puede auto-anfitrionarlo. STT.ai's página de código abierto lista la repo proyecto y pesos. La mayoría de los equipos de producción utilizan nuestra versión alojada para saltarse la adquisición de GPU, modelos swaps, y ops.