Transcribe with Vosk
12.0%
WER
20
Languages
100.0x
Speed
Apache 2.0
License
About Vosk
Languages Supported by Vosk
Model Info
- ProviderAlpha Cephei
- Architecture-
- LicenseApache 2.0
- UpdatedMar 2026
Maiz egiten diren galderak
Vosk Alpha Cepheiren hizketa-testu modelo bat da. STT.aik Vosk gure GPU azpiegituran ostatzen du, zure hardwarea hornitu gabe erabil dezakezu, audioa edo bideoa igo eta Vosk aukeratu modelo-hautatzailean.
Erreferentzia estandarretan, Voskk %12.0 inguruko hitzen errore-tasa lortzen du. Benetako zehaztasuna audio-kalitatearen, azentuaren eta hizkuntzaren araberakoa da; grabazio zaratatsu edo azentudunetarako, WER ehuneko puntu batzuk handiagoa espero daiteke.
Vosk STT.airen doako mailan exekutatzen da — bisitari bakoitzak 600 minutu/hilabete jasotzen ditu kosturik gabe. Ordainpeko planek fitxategiko muga luzeagoak gehitzen dituzte, transkribapen pribatuak eta lehentasun ilara.
Vosk Apache 2.0 lizentziapean argitaratzen da, kode irekiko lizentzia permisiboa. Zure hardwarean Vosk ostatatu dezakezu edo gure ostatatutako bertsioa erabili — biak erabil daitezke merkataritzan.
Voskk 20 hizkuntza onartzen ditu. Auto-detekzioak hizkuntza egokia hautatzen du audio gehienentzat; eskuz ere zehaztu dezakezu zehaztasun txikiagoa lortzeko.
Vosk-k audioa 100.0x denbora errealean prozesatzen du gure GPUetan. Ordu bateko audio-fitxategi bat 1 minututan amaitzen da; fitxategi luzeagoak ilaran jarri eta e-postaz jakinarazi egiten dira amaitzen direnean.
Vosk-k 50M parametro ditu. Modelo handiagoak zehatzagoak izaten dira, baina motelagoak; STT.ai-k Vosk GPUan gordetzen du, beraz parametroen kopuruak ez du eraginik izango bezeroaren errendimenduan.
Voskek STT.aik onartzen dituen formatu guztiak onartzen ditu: MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI eta beste batzuk. Irteera TXT, SRT, VTT, DOCX, JSON edo PDF gisa.
Bai. Hiztun-diarizazioa Voskrekin batera exekutatzen da transkribapen bakoitzean — hiztun bakoitza etiketatuta dago eta gero editorean izena aldatu ahal izango duzu.
Bai. Vosk gure kudeatutako ingurunean exekutatzen da — audioa lehenespenez prozesatu eta ezabatu egiten da, eta ez da inoiz entrenamendurako erabiltzen, aldez aurretik aukeratu gabe. Pro planek bezeroaren aldeko enkriptatzea gehitzen dute transkribapen geldituetan.
Erabili compare-stt tresna Vosk audio beraren beste edozein onartutako modeloren aurka exekutatzeko — WER, segmentu-kopurua, bozgorailuen etiketak eta konfiantza-puntuak aldi berean ikusiko dituzu. Vosk eta Whisper Large V3 konparaketa da gehien erabiltzen dena.
Bai. Zehaztu "vosk" modeloaren parametro gisa /v1/transcribe amaierako puntuan. Python eta Node.js SDKek Vosk adibidea dute. API doako maila 100 minutukoa da hilean.
Bai. Vosk Apache 2.0 lizentziaduna denez, zeure burua ostatatu dezakezu. STT.airen kode irekiko orrialdean proiektuaren errepositorioa eta pisuak zerrendatzen dira. Produkzio-talde gehienek gure ostatatutako bertsioa erabiltzen dute GPU-ren erosketak, modeloen trukaketak eta operazioak saltatzeko.