Transcribe with Vosk
12.0%
WER
20
Languages
100.0x
Speed
Apache 2.0
License
About Vosk
Languages Supported by Vosk
Model Info
- ProviderAlpha Cephei
- Architecture-
- LicenseApache 2.0
- UpdatedMar 2026
Ofta settir spurningar
Vosk er ein tal-til-tekst-modell frá Alpha Cephei. STT.ai er hýsa fyri Vosk á okkara GPU-infrakervi, so tú kanst brúka tað uttan at gera títt egna hardware tilfar - senda inn ljóð ella video og vel Vosk frá model-veljaranum.
Vosk hevur eina orðfeilstíð uppá umleið 12.0% í standard próvtøkum. Real-world accuracy depends on audio quality, accent, and language; for noisy or accented recordings, expect a few percentage points higher WER.
Vosk koyrir á STT.ai1's free tier - hvør vitjandi fær 600 minuttir / mánaða uttan kostnað. gjaldandi ætlanirnar leggja longri per-file markið, private transcripts, og priority queuing.
Vosk er útgivið undir Apache 2.0, einari permissivari opnari upprunaloyvisskipan. Tú kanst sjálvur vera vertur fyri Vosk á tínum egna maskinvara ella brúka okkara vertur útgávu — báðar eru kommersielt nýtiligar.
Vosk stuðlar 20 málum. Auto-discover velur rætta málið fyri flestu ljóðini. Tú kanst eisini velja tað manuelt fyri at fáa eina lítla øgiligari nákvæmni.
Vosk processes audio at about 100.0x real-time on our GPUs. A 1-hour audio file finishes in under 1 minutes; longer files queue and notify by email when done.
Vosk hevur 50M parametrar. Størri modeller hava til at vera meira nákvæmar, men hægri; STT.ai hevur Vosk á GPU, so parameter-talið hevur ikki ávirkan á klient-síðuna.
Vosk tekur ímóti øllum sniðum, sum STT.ai stuðlar — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, og onnur. Úttøka sum TXT, SRT, VTT, DOCX, JSON, ella PDF.
Ja. Speaker diarization runs alongside Vosk for every transcription — each speaker is labelled and you can rename them in the editor afterwards.
Ja. Vosk koyrir í okkara umsitingarliga umhvørvi — ljóð verður viðgjørt og slettað sum standard og verður ongantíð brúkt til venjing uttan útgreiniliga atkvøðugreiðslu. Pro-planir leggja til klient-side-kryptering fyri transkriptiónir í hvíld.
No use the compare-stt tool to run Vosk against any other supported model on the same audio — you'll see WER, segment count, speaker labels, and confidence scores side-by-side. The Vosk vs Whisper Large V3 comparison is the most commonly run.
Ja. Tilgreina "vosk" sum modelparameter á /v1/transcribe endapunktinum. Python og Node.js SDK'ir innihalda Vosk dømi. Frítt API-stig fevnir um 100 minuttir/mánað.
Ja. Tí Vosk er Apache 2.0-licensed, tú kanst self-host it. STT.ai's open-source page lists the project repo and weights. Most production teams use our hosted version to skip GPU procurement, model swaps, and ops.