Informar dun erro / Solicitar unha funcionalidade

Transcrever con Vosk

Name: Vosk
Author: Alpha Cephei

Funciona con son e vídeo dispoñíbeis publicamente. Non se admiten contidos protexidos con DRM.

Actualización para mellorado

Transcrición privada

Conversa con transcrición

Desbloquear con Pro →

Solte aquí o ficheiro ou prema para examinar

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — ata 2 GB

Enviar varios ficheiros en lote con Pro

Actualización para mellorado

Transcrición privada

Conversa con transcrición

Desbloquear con Pro →

Actualización para mellorado

Fala a texto en tempo real. A IA corrixe automaticamente mentres fala — a precisión mellora coa duración da fala.

Probe primeiro o micrófono

10 minutos libres/día 600 min gratis con rexistro Sen tarxeta de crédito Cifrado

Inscríbete gratis →

12.0%

WER

Linguas

100.0x

Velocidade

Apache 2.0

Licenza

Acerca de Vosk

Vosk é un conxunto de ferramentas de recoñecemento de voz sen conexión que funciona sen conexión a Internet. Soporta máis de 20 linguas con modelos compactos que se poden executar en dispositivos móbiles, Raspberry Pi e calquera plataforma. Está construído sobre as arquitecturas Kaldi e Zipformer.

Linguas soportadas Vosk

Inglés

Español

Francés

Alemán

Chinés

Xaponés

Coreano

Portugués

Árabe

Hindi

Ruso

Italiano

Neerlandés

Turco

Polaco

Sueco

Indonesio

Vietnamita

Checo

Grego

Información do modelo

ProvedorAlpha Cephei
Arquitectura-
LicenzaApache 2.0
ActualizadoMar 2026

Modelos relacionados

3.2% WER

4.2% WER

5.1% WER

3.5% WER

7.8% WER

Preguntas frecuentes

Vosk é un modelo de voz a texto de Alpha Cephei. STT.ai aloxa Vosk na nosa infraestrutura de GPU para que poida usalo sen ter que aprovisionar o seu propio hardware: envíe son ou vídeo e escolla Vosk no selector de modelos.

En probas estándar, Vosk alcanza unha taxa de erro de palabra do 12.0%. A precisión real depende da calidade do son, do acento e da linguaxe; para gravacións ruidosas ou acentuadas, espere uns poucos puntos porcentuais máis altos de WER.

Vosk executa no nivel gratuíto de STT.ai - cada visitante obtén 600 minutos para comezar sen custo. Os plans de pago engaden límites máis longos por ficheiro, transcricións privadas e filas de prioridade.

Vosk é publicado baixo Apache 2.0, unha licenza permisiva de código aberto. Pode aloxar Vosk no seu propio hardware ou usar a nosa versión aloxada, ambas as dúas son comercialmente utilizables.

Vosk soporta 20 linguas. A detección automática escolle a lingua correcta para a maioría do son; tamén pode especificala manualmente para un pequeno aumento de precisión.

Vosk procesa o son a uns 100.0x en tempo real nas nosas GPU. Un ficheiro de son de 1 hora remata en menos de 1 minutos; os ficheiros máis longos enfróntanse e avísanse por correo electrónico cando rematan.

Vosk ten parámetros 50M. Os modelos maiores tenden a ser máis precisos pero máis lentos; STT.ai aloxa Vosk na GPU polo que a contaxe de parámetros non afecta ao rendemento do lado do cliente.

Vosk acepta todos os formatos soportados por STT.ai: MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI e outros. Saída como TXT, SRT, VTT, DOCX, JSON ou PDF.

Si. A diarización do falante corre xunto co Vosk para cada transcrición - cada falante está etiquetado e pode mudarlle o nome no editor despois.

Si. Vosk executase no noso entorno xestionado — o son é procesado e borrado por omisión e nunca é usado para adestramento sen unha opción explícita. Os plans Pro engadirán cifrado do lado do cliente para as transcricións en repouso.

Use a ferramenta compare- stt para executar o Vosk contra calquera outro modelo soportado no mesmo son — verá o WER, o número de segmentos, as etiquetas dos altofalantes e as puntuacións de confianza lado a lado. A comparación Vosk vs Whisper Large V3 é a máis común.

Si. Especifique « vosk » como parámetro do modelo no punto final / v1/ transcribe. Os SDK de Python e Node. js inclúen exemplos de Vosk. O nivel de API gratuíto inclúe 100 minutos/ mes.

Si. Como Vosk ten licenza Apache 2.0, pode aloxalo vostede mesmo. A páxina de código aberto de STT.ai lista o repositorio e os pesos do proxecto. A maioría dos equipos de produción usan a nosa versión aloxada para saltar a procura de GPU, intercambios de modelos e operacións.

Transcrever con Vosk

Acerca de Vosk

Linguas soportadas Vosk

Información do modelo

Modelos relacionados

Preguntas frecuentes

Que é Vosk?

Que tan exacto é Vosk?

É libre o Vosk?

Que licenza usa Vosk?

Cantos idiomas soporta Vosk?

Que tan rápido é Vosk?

Canto é grande o modelo Vosk?

Que formatos de son pode transcribir o Vosk?

O Vosk detecta varios altofalantes?

Os meus datos son privados cando uso Vosk?

Como se compara o Vosk con outros modelos STT?

Podo usar Vosk a través da API?

Podo executar Vosk no meu propio servidor?