Informar de Bug / Pedido de Feature

Transcrição com Distil-Whisper

Name: Distil-Whisper
Author: Hugging Face

Funciona com áudio e vídeo disponível publicamente. O conteúdo protegido por DRM não é suportado.

Atualização para Melhorado

Transcrição privada

Conversa com transcrição

Desbloquear com Pro →

Deixe aqui o arquivo ou clique para navegar

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — até 2GB

Lote de upload múltiplos arquivos com Pro

Atualização para Melhorado

Transcrição privada

Conversa com transcrição

Desbloquear com Pro →

Atualização para Melhorado

A fala em tempo real ao texto. A IA auto-correge ao mesmo tempo que você fala — a precisão melhora com a fala mais longa.

Teste o seu microfone primeiro

10 min/dia livre 600 min livre com inscrição Não há cartão de crédito Cifrado

Inscrever-se gratuitamente →

5.8%

WER

Línguas

48.0x

Velocidade

MIT

Licença

Sobre Distil-Whisper

Distil-Whisper é uma versão destilada de Whisper criada por Hugging Face. Reduz o tamanho do modelo em 49% e atinge inferência 6x mais rápida, mantendo em 1% WER do Whisper Large V2 original em conjuntos de avaliação fora da distribuição.

Línguas Suportadas por Distil-Whisper

Inglês

Espanhol

Francês

Alemão

Chinês

Japonês

Coreano

Português

Árabe

Híndi

Russo

Italiano

Holandês

Turco

Polonês

Sueco

Indonésio

Tailandês

Vietnamita

Tcheco

Grego

Romeno

Húngaro

Hebraico

Dinamarquês

Finlandês

Norueguês

Ucraniano

Malaio

Bengali

Informações do Modelo

FornecedorHugging Face
Arquitetura-
LicençaMIT
ActualizadoMar 2026

Modelos Relacionados

3.2% WER

4.2% WER

5.1% WER

3.5% WER

7.8% WER

Perguntas frequentes

Distil-Whisper é um modelo de fala a texto por Hugging Face. STT.ai hospeda Distil-Whisper em nossa infraestrutura GPU para que você possa usá-lo sem providenciar seu próprio hardware — carregar áudio ou vídeo e escolher Distil-Whisper do seletor de modelos.

Nas referências padrão, Distil-Whisper atinge cerca de 8801% da taxa de erro do Word. A precisão do mundo real depende da qualidade, acento e linguagem do áudio; para gravações ruidosas ou acentuadas, esperam alguns pontos percentuais mais altos WER.

Distil-Whisper corre na nível livre de STT.ai — cada visitante recebe 600 minutos para começar sem custo. Planos pagos adicionam mais limites por arquivo, transcrições privadas e filas de espera prioritárias.

Distil-Whisper é lançado sob MIT, uma licença permissiva de código aberto. Você pode auto-hoste Distil-Whisper em seu próprio hardware ou usar a nossa versão hospedada — ambos são comercialmente utilizáveis.

Distil-Whisper suporta 99 idiomas. Auto-detecção escolhe a linguagem certa para a maioria do áudio; você também pode especificar manualmente para um pequeno elevador de precisão.

Distil-Whisper processa áudio a cerca de 48.0x em tempo real em nosso GPUs. Um arquivo de áudio de 1 hora termina em menos de 1 minutos; arquivos mais longos cola e notifica por e-mail quando feito.

Distil-Whisper tem 756M parâmetros. Os modelos mais grandes tendem a ser mais precisos mas mais lentos; STT.ai hosts Distil-Whisper na GPU para que a contagem de parâmetros não afecte o seu desempenho do lado do cliente.

Distil-Whisper aceita cada formato STT.ai suportes — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI e outros. Saída como TXT, SRT, VTT, DOCX, JSON ou PDF.

Sim. Diarização do orador corre ao lado de Distil-Whisper para cada transcrição — cada orador é rotulado e você pode renomeá-los no editor depois.

Sim. Distil-Whisper funciona no nosso ambiente gerenciado — áudio é processado e excluído por padrão e nunca usado para treinamento sem opt-in explícito. Pro planos adicionar criptografia do lado do cliente para transcrições no repouso.

Use a ferramenta compar-stt para executar Distil-Whisper contra qualquer outro modelo suportado no mesmo áudio — você verá WER, contagem de segmentos, rótulos de alto-falante e pontuação de confiança lado a lado. A comparação Distil-Whisper vs Whisper Large V3 é a mais comumente executada.

Sim. Especifique "distil-whisper" como o parâmetro do modelo no ponto final /v1/transcribe. Python e Node.js SDKs incluem Distil-Whisper exemplos. O nível de API gratuito inclui 100 minutos/mes.

Sim. Como Distil-Whisper é MIT-licenciado, você pode hospedá-lo. STT.ai página de código aberto lista o projeto repo e pesos. A maioria das equipes de produção usa a nossa versão hospedada para saltar compras GPU, swaps de modelos e ops.

Transcrição com Distil-Whisper

Sobre Distil-Whisper

Línguas Suportadas por Distil-Whisper

Informações do Modelo

Modelos Relacionados

Perguntas frequentes

O que é Distil-Whisper?

Quão precisas são Distil-Whisper?

Distil-Whisper é livre de usar?

Que licença usa Distil-Whisper?

Quantas línguas apoiam Distil-Whisper?

Quão rápido é Distil-Whisper?

Quão grande é o modelo Distil-Whisper?

Que formatos de áudio podem transcrever Distil-Whisper?

Distil-Whisper detecta múltiplos alto-falantes?

Os meus dados são privados quando usam Distil-Whisper?

Como se compara Distil-Whisper com outros modelos STT?

Posso usar Distil-Whisper através da API?

Posso executar Distil-Whisper no meu próprio servidor?