Transcrever com Whisper Large V3
4.2%
WER
99
Languages
8.0x
Speed
MIT
License
Sobre Whisper Large V3
Whisper Large V3 is OpenAI's flagship open-source speech recognition model. With 1.55 billion parameters, it offers exceptional accuracy across 99 languages. It uses a transformer encoder-decoder architecture trained on 680,000 hours of multilingual audio data.
Model Info
- ProviderOpenAI
- Architecture-
- LicenseMIT
- UpdatedMar 2026
Perguntas frequentes
Whisper Large V3 é um modelo de fala a texto por OpenAI. STT.ai hospeda Whisper Large V3 em nossa infraestrutura GPU para que você possa usá-lo sem providenciar seu próprio hardware — carregar áudio ou vídeo e escolher Whisper Large V3 do seletor de modelos.
Nas referências padrão, Whisper Large V3 atinge cerca de 8801% da taxa de erro do Word. A precisão do mundo real depende da qualidade, acento e linguagem do áudio; para gravações ruidosas ou acentuadas, esperam alguns pontos percentuais mais altos WER.
Whisper Large V3 corre no nível livre de STT.ai — cada visitante recebe 600 minutos/mes sem custo. Planos pagos adicionam mais limites por arquivo, transcrições privadas e fila de espera prioritária.
Whisper Large V3 é lançado sob MIT, uma licença permissiva de código aberto. Você pode auto-hoste Whisper Large V3 em seu próprio hardware ou usar a nossa versão hospedada — ambos são comercialmente utilizáveis.
Whisper Large V3 suporta 99 idiomas. Auto-detecção escolhe a linguagem certa para a maioria do áudio; você também pode especificar manualmente para um pequeno elevador de precisão.
Whisper Large V3 processa áudio a cerca de 8.0x em tempo real em nosso GPUs. Um arquivo de áudio de 1 hora termina em menos de 7 minutos; arquivos mais longos cola e notifica por e-mail quando feito.
Whisper Large V3 tem 1.55B parâmetros. Os modelos mais grandes tendem a ser mais precisos mas mais lentos; STT.ai hosts Whisper Large V3 na GPU para que a contagem de parâmetros não afecte o seu desempenho do lado do cliente.
Whisper Large V3 aceita cada formato STT.ai suportes — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI e outros. Saída como TXT, SRT, VTT, DOCX, JSON ou PDF.
Sim. Diarização do orador corre ao lado de Whisper Large V3 para cada transcrição — cada orador é rotulado e você pode renomeá-los no editor depois.
Sim. Whisper Large V3 funciona no nosso ambiente gerenciado — áudio é processado e excluído por padrão e nunca usado para treinamento sem opt-in explícito. Pro planos adicionar criptografia do lado do cliente para transcrições no repouso.
Use a ferramenta compar-stt para executar Whisper Large V3 contra qualquer outro modelo suportado no mesmo áudio — você verá WER, contagem de segmentos, rótulos de alto-falante e pontuação de confiança lado a lado. A comparação Whisper Large V3 vs Whisper Large V3 é a mais comumente executada.
Sim. Especifique "whisper-large-v3" como o parâmetro do modelo no ponto final /v1/transcribe. Python e Node.js SDKs incluem Whisper Large V3 exemplos. O nível de API gratuito inclui 100 minutos/mes.
Sim. Como Whisper Large V3 é MIT-licenciado, você pode hospedá-lo. STT.ai página de código aberto lista o projeto repo e pesos. A maioria das equipes de produção usa a nossa versão hospedada para saltar compras GPU, swaps de modelos e ops.