Informar de Bug / Pedido de Feature

Transcrição com Whisper Large V3

Name: Whisper Large V3
Author: OpenAI

Funciona com áudio e vídeo disponível publicamente. O conteúdo protegido por DRM não é suportado.

Atualização para Melhorado

Transcrição privada

Conversa com transcrição

Desbloquear com Pro →

Deixe aqui o arquivo ou clique para navegar

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — até 2GB

Lote de upload múltiplos arquivos com Pro

Atualização para Melhorado

Transcrição privada

Conversa com transcrição

Desbloquear com Pro →

Atualização para Melhorado

A fala em tempo real ao texto. A IA auto-correge ao mesmo tempo que você fala — a precisão melhora com a fala mais longa.

Teste o seu microfone primeiro

10 min/dia livre 600 min livre com inscrição Não há cartão de crédito Cifrado

Inscrever-se gratuitamente →

4.2%

WER

Línguas

8.0x

Velocidade

MIT

Licença

Sobre Whisper Large V3

O Whisper Large V3 é o modelo de reconhecimento de fala de código aberto da OpenAI. Com 1,5 bilhões de parâmetros, oferece uma precisão excepcional em 99 línguas. Usa uma arquitetura de codificador-decoder transformador treinada em 680.000 horas de dados de áudio multilingue.

Línguas Suportadas por Whisper Large V3

Inglês

Espanhol

Francês

Alemão

Chinês

Japonês

Coreano

Português

Árabe

Híndi

Russo

Italiano

Holandês

Turco

Polonês

Sueco

Indonésio

Tailandês

Vietnamita

Tcheco

Grego

Romeno

Húngaro

Hebraico

Dinamarquês

Finlandês

Norueguês

Ucraniano

Malaio

Bengali

Informações do Modelo

FornecedorOpenAI
Arquitetura-
LicençaMIT
ActualizadoMar 2026

Modelos Relacionados

3.2% WER

5.1% WER

3.5% WER

7.8% WER

3.0% WER

Perguntas frequentes

Whisper Large V3 é um modelo de fala a texto por OpenAI. STT.ai hospeda Whisper Large V3 em nossa infraestrutura GPU para que você possa usá-lo sem providenciar seu próprio hardware — carregar áudio ou vídeo e escolher Whisper Large V3 do seletor de modelos.

Nas referências padrão, Whisper Large V3 atinge cerca de 8801% da taxa de erro do Word. A precisão do mundo real depende da qualidade, acento e linguagem do áudio; para gravações ruidosas ou acentuadas, esperam alguns pontos percentuais mais altos WER.

Whisper Large V3 corre na nível livre de STT.ai — cada visitante recebe 600 minutos para começar sem custo. Planos pagos adicionam mais limites por arquivo, transcrições privadas e filas de espera prioritárias.

Whisper Large V3 é lançado sob MIT, uma licença permissiva de código aberto. Você pode auto-hoste Whisper Large V3 em seu próprio hardware ou usar a nossa versão hospedada — ambos são comercialmente utilizáveis.

Whisper Large V3 suporta 99 idiomas. Auto-detecção escolhe a linguagem certa para a maioria do áudio; você também pode especificar manualmente para um pequeno elevador de precisão.

Whisper Large V3 processa áudio a cerca de 8.0x em tempo real em nosso GPUs. Um arquivo de áudio de 1 hora termina em menos de 7 minutos; arquivos mais longos cola e notifica por e-mail quando feito.

Whisper Large V3 tem 1.55B parâmetros. Os modelos mais grandes tendem a ser mais precisos mas mais lentos; STT.ai hosts Whisper Large V3 na GPU para que a contagem de parâmetros não afecte o seu desempenho do lado do cliente.

Whisper Large V3 aceita cada formato STT.ai suportes — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI e outros. Saída como TXT, SRT, VTT, DOCX, JSON ou PDF.

Sim. Diarização do orador corre ao lado de Whisper Large V3 para cada transcrição — cada orador é rotulado e você pode renomeá-los no editor depois.

Sim. Whisper Large V3 funciona no nosso ambiente gerenciado — áudio é processado e excluído por padrão e nunca usado para treinamento sem opt-in explícito. Pro planos adicionar criptografia do lado do cliente para transcrições no repouso.

Use a ferramenta compar-stt para executar Whisper Large V3 contra qualquer outro modelo suportado no mesmo áudio — você verá WER, contagem de segmentos, rótulos de alto-falante e pontuação de confiança lado a lado. A comparação Whisper Large V3 vs Whisper Large V3 é a mais comumente executada.

Sim. Especifique "whisper-large-v3" como o parâmetro do modelo no ponto final /v1/transcribe. Python e Node.js SDKs incluem Whisper Large V3 exemplos. O nível de API gratuito inclui 100 minutos/mes.

Sim. Como Whisper Large V3 é MIT-licenciado, você pode hospedá-lo. STT.ai página de código aberto lista o projeto repo e pesos. A maioria das equipes de produção usa a nossa versão hospedada para saltar compras GPU, swaps de modelos e ops.

Transcrição com Whisper Large V3

Sobre Whisper Large V3

Línguas Suportadas por Whisper Large V3

Informações do Modelo

Modelos Relacionados

Perguntas frequentes

O que é Whisper Large V3?

Quão precisas são Whisper Large V3?

Whisper Large V3 é livre de usar?

Que licença usa Whisper Large V3?

Quantas línguas apoiam Whisper Large V3?

Quão rápido é Whisper Large V3?

Quão grande é o modelo Whisper Large V3?

Que formatos de áudio podem transcrever Whisper Large V3?

Whisper Large V3 detecta múltiplos alto-falantes?

Os meus dados são privados quando usam Whisper Large V3?

Como se compara Whisper Large V3 com outros modelos STT?

Posso usar Whisper Large V3 através da API?

Posso executar Whisper Large V3 no meu próprio servidor?