Informar dun erro / Solicitar unha funcionalidade

Transcrever con Whisper Large V3

Name: Whisper Large V3
Author: OpenAI

Funciona con son e vídeo dispoñíbeis publicamente. Non se admiten contidos protexidos con DRM.

Actualización para mellorado

Transcrición privada

Conversa con transcrición

Desbloquear con Pro →

Solte aquí o ficheiro ou prema para examinar

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — ata 2 GB

Enviar varios ficheiros en lote con Pro

Actualización para mellorado

Transcrición privada

Conversa con transcrición

Desbloquear con Pro →

Actualización para mellorado

Fala a texto en tempo real. A IA corrixe automaticamente mentres fala — a precisión mellora coa duración da fala.

Probe primeiro o micrófono

10 minutos libres/día 600 min gratis con rexistro Sen tarxeta de crédito Cifrado

Inscríbete gratis →

4.2%

WER

Linguas

8.0x

Velocidade

MIT

Licenza

Acerca de Whisper Large V3

Whisper Large V3 é o modelo de recoñecemento de voz de código aberto máis importante de OpenAI. Con 1. 550 millóns de parámetros, ofrece unha precisión excepcional en 99 linguas. Emprega unha arquitectura de codificador- descodificador de transformadores adestrada en 680. 000 horas de datos de son multilingües.

Linguas soportadas Whisper Large V3

Inglés

Español

Francés

Alemán

Chinés

Xaponés

Coreano

Portugués

Árabe

Hindi

Ruso

Italiano

Neerlandés

Turco

Polaco

Sueco

Indonesio

Tailandés

Vietnamita

Checo

Grego

Romanés

Húngaro

Hebreo

Dinamarqués

Finés

Noruegués

Ucraíno

Malaio

Bengalí

Información do modelo

ProvedorOpenAI
Arquitectura-
LicenzaMIT
ActualizadoMar 2026

Modelos relacionados

3.2% WER

5.1% WER

3.5% WER

7.8% WER

3.0% WER

Preguntas frecuentes

Whisper Large V3 é un modelo de voz a texto de OpenAI. STT.ai aloxa Whisper Large V3 na nosa infraestrutura de GPU para que poida usalo sen ter que aprovisionar o seu propio hardware: envíe son ou vídeo e escolla Whisper Large V3 no selector de modelos.

En probas estándar, Whisper Large V3 alcanza unha taxa de erro de palabra do 4.2%. A precisión real depende da calidade do son, do acento e da linguaxe; para gravacións ruidosas ou acentuadas, espere uns poucos puntos porcentuais máis altos de WER.

Whisper Large V3 executa no nivel gratuíto de STT.ai - cada visitante obtén 600 minutos para comezar sen custo. Os plans de pago engaden límites máis longos por ficheiro, transcricións privadas e filas de prioridade.

Whisper Large V3 é publicado baixo MIT, unha licenza permisiva de código aberto. Pode aloxar Whisper Large V3 no seu propio hardware ou usar a nosa versión aloxada, ambas as dúas son comercialmente utilizables.

Whisper Large V3 soporta 99 linguas. A detección automática escolle a lingua correcta para a maioría do son; tamén pode especificala manualmente para un pequeno aumento de precisión.

Whisper Large V3 procesa o son a uns 8.0x en tempo real nas nosas GPU. Un ficheiro de son de 1 hora remata en menos de 7 minutos; os ficheiros máis longos enfróntanse e avísanse por correo electrónico cando rematan.

Whisper Large V3 ten parámetros 1.55B. Os modelos maiores tenden a ser máis precisos pero máis lentos; STT.ai aloxa Whisper Large V3 na GPU polo que a contaxe de parámetros non afecta ao rendemento do lado do cliente.

Whisper Large V3 acepta todos os formatos soportados por STT.ai: MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI e outros. Saída como TXT, SRT, VTT, DOCX, JSON ou PDF.

Si. A diarización do falante corre xunto co Whisper Large V3 para cada transcrición - cada falante está etiquetado e pode mudarlle o nome no editor despois.

Si. Whisper Large V3 executase no noso entorno xestionado — o son é procesado e borrado por omisión e nunca é usado para adestramento sen unha opción explícita. Os plans Pro engadirán cifrado do lado do cliente para as transcricións en repouso.

Use a ferramenta compare- stt para executar o Whisper Large V3 contra calquera outro modelo soportado no mesmo son — verá o WER, o número de segmentos, as etiquetas dos altofalantes e as puntuacións de confianza lado a lado. A comparación Whisper Large V3 vs Whisper Large V3 é a máis común.

Si. Especifique « whisper-large-v3 » como parámetro do modelo no punto final / v1/ transcribe. Os SDK de Python e Node. js inclúen exemplos de Whisper Large V3. O nivel de API gratuíto inclúe 100 minutos/ mes.

Si. Como Whisper Large V3 ten licenza MIT, pode aloxalo vostede mesmo. A páxina de código aberto de STT.ai lista o repositorio e os pesos do proxecto. A maioría dos equipos de produción usan a nosa versión aloxada para saltar a procura de GPU, intercambios de modelos e operacións.

Transcrever con Whisper Large V3

Acerca de Whisper Large V3

Linguas soportadas Whisper Large V3

Información do modelo

Modelos relacionados

Preguntas frecuentes

Que é Whisper Large V3?

Que tan exacto é Whisper Large V3?

É libre o Whisper Large V3?

Que licenza usa Whisper Large V3?

Cantos idiomas soporta Whisper Large V3?

Que tan rápido é Whisper Large V3?

Canto é grande o modelo Whisper Large V3?

Que formatos de son pode transcribir o Whisper Large V3?

O Whisper Large V3 detecta varios altofalantes?

Os meus datos son privados cando uso Whisper Large V3?

Como se compara o Whisper Large V3 con outros modelos STT?

Podo usar Whisper Large V3 a través da API?

Podo executar Whisper Large V3 no meu propio servidor?