Transcribe with Whisper Large V3

Funciona con son e vídeo dispoñíbeis publicamente. Non se admiten contidos protexidos con DRM.

Actualización para mellorado
Private transcript
Conversa con transcrición
Desbloquear con Pro →
Solte aquí o ficheiro ou prema para examinar
MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — ata 2 GB
Actualización para mellorado
Private transcript
Conversa con transcrición
Desbloquear con Pro →
Actualización para mellorado
Gravación: 0:00
En tempo real Cera (instantánea)
Mellorado Sussurrar (preciso)
Ligazóns públicas: 24h, só texto · Inscríbete para 7d + audio · Pro para ligazóns privadas

Fala a texto en tempo real. A IA corrixe automaticamente mentres fala — a precisión mellora coa duración da fala.

Probe primeiro o micrófono
❤️ Amas STT.ai?
Esgotou as súas transcricións libres.

Inscríbase de balde para obter 600 minutos/mes, ou actualícese para obter transcricións ilimitadas.

10 minutos libres/día 600 min gratis con rexistro Sen tarxeta de crédito Cifrado
Inscríbete gratis →
4.2%
WER
99
Languages
8.0x
Speed
MIT
License

About Whisper Large V3

Preguntas frecuentes

Whisper Large V3 é un modelo de voz a texto de OpenAI. STT.ai aloxa Whisper Large V3 na nosa infraestrutura de GPU para que poida usalo sen ter que aprovisionar o seu propio hardware: envíe son ou vídeo e escolla Whisper Large V3 no selector de modelos.

En probas estándar, Whisper Large V3 alcanza unha taxa de erro de palabra do 4.2%. A precisión real depende da calidade do son, do acento e da linguaxe; para gravacións ruidosas ou acentuadas, espere uns poucos puntos porcentuais máis altos de WER.

Whisper Large V3 executase no nivel gratuíto de STT.ai — cada visitante obtén 600 minutos/ mes sen custo. Os plans de pago engaden límites máis longos por ficheiro, transcricións privadas e filas de prioridade.

Whisper Large V3 é publicado baixo MIT, unha licenza permisiva de código aberto. Pode aloxar Whisper Large V3 no seu propio hardware ou usar a nosa versión aloxada, ambas as dúas son comercialmente utilizables.

Whisper Large V3 soporta 99 linguas. A detección automática escolle a lingua correcta para a maioría do son; tamén pode especificala manualmente para un pequeno aumento de precisión.

Whisper Large V3 procesa o son a uns 8.0x en tempo real nas nosas GPU. Un ficheiro de son de 1 hora remata en menos de 7 minutos; os ficheiros máis longos enfróntanse e avísanse por correo electrónico cando rematan.

Whisper Large V3 ten parámetros 1.55B. Os modelos maiores tenden a ser máis precisos pero máis lentos; STT.ai aloxa Whisper Large V3 na GPU polo que a contaxe de parámetros non afecta ao rendemento do lado do cliente.

Whisper Large V3 acepta todos os formatos soportados por STT.ai: MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI e outros. Saída como TXT, SRT, VTT, DOCX, JSON ou PDF.

Si. A diarización do falante corre xunto co Whisper Large V3 para cada transcrición - cada falante está etiquetado e pode mudarlle o nome no editor despois.

Si. Whisper Large V3 executase no noso entorno xestionado — o son é procesado e borrado por omisión e nunca é usado para adestramento sen unha opción explícita. Os plans Pro engadirán cifrado do lado do cliente para as transcricións en repouso.

Use a ferramenta compare- stt para executar o Whisper Large V3 contra calquera outro modelo soportado no mesmo son — verá o WER, o número de segmentos, as etiquetas dos altofalantes e as puntuacións de confianza lado a lado. A comparación Whisper Large V3 vs Whisper Large V3 é a máis común.

Si. Especifique « whisper-large-v3 » como parámetro do modelo no punto final / v1/ transcribe. Os SDK de Python e Node. js inclúen exemplos de Whisper Large V3. O nivel de API gratuíto inclúe 100 minutos/ mes.

Si. Como Whisper Large V3 ten licenza MIT, pode aloxalo vostede mesmo. A páxina de código aberto de STT.ai lista o repositorio e os pesos do proxecto. A maioría dos equipos de produción usan a nosa versión aloxada para saltar a procura de GPU, intercambios de modelos e operacións.