Transcribe with Vosk
12.0%
WER
20
Languages
100.0x
Speed
Apache 2.0
License
About Vosk
Languages Supported by Vosk
Model Info
- ProviderAlpha Cephei
- Architecture-
- LicenseApache 2.0
- UpdatedMar 2026
Ofte stillede spørgsmål
Vosk er en tale-til-tekst model af Alpha Cephei. STT.ai værter Vosk på vores GPU-infrastruktur, så du kan bruge det uden at give din egen hardware uploade lyd eller video og vælge Vosk fra modelvælgeren.
På standard benchmarks, Vosk opnår omkring 12.0% Word Error Rate. Real-verden nøjagtighed afhænger af lydkvalitet, accent og sprog; for støjende eller accent optagelser, forventer et par procentpoint højere WER.
Vosk kører på STT.ai free tier ~ hver besøgende får 600 minutter / måned uden omkostninger. Betalte planer tilføje længere per-fil grænser, private udskrifter, og prioritet kø.
Vosk er udgivet under Apache 2.0, en permissiv open source licens. Du kan selvvært Vosk på din egen hardware eller bruge vores hosted version! begge er kommercielt brugbare.
Vosk understøtter 20 sprog. Auto-detektering vælger det rigtige sprog til de fleste lyd; du kan også angive det manuelt for en lille nøjagtighed elevator.
Vosk behandler lyd på omkring 100.0x realtid på vores GPU'er. En 1-timers lydfil slutter på under 1 minutter; længere filer kø og underrette via e-mail, når det er gjort.
Vosk har 50M parametre. Større modeller har tendens til at være mere præcise, men langsommere; STT.ai værter Vosk på GPU, så parameteren tæller ikke påvirker din klient-side ydeevne.
Vosk accepterer hvert format STT.ai understøtter ~ MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, og andre. Output som TXT, SRT, VTT, DOCX, JSON, eller PDF.
Ja. Speaker diarization kører sammen med Vosk for hver transskription! hver højttaler er mærket, og du kan omdøbe dem i editoren bagefter.
Ja. Vosk kører i vores administrerede miljø ~ lyd behandles og slettes som standard og aldrig bruges til træning uden eksplicit opt-in. Pro planer tilføje klient-side kryptering for udskrifter på hvile.
Brug sammenligning-stt værktøj til at køre Vosk mod enhver anden understøttet model på den samme lyd! du vil se WER, segment tæller, højttaler etiketter, og tillid scorer side om side. Vosk vs Whisper Stor V3 sammenligning er den mest almindelige køre.
Ja. Angiv "vosk" som modelparameter på /v1/transcribe endpoint. Python og node.js SDKs omfatter Vosk eksempler. Gratis API-niveau inkluderer 100 minutter/måned.
Ja. Fordi Vosk er Apache 2.0-licenseret, kan du selv være vært for det. STT.ai open source side viser projektet repo og vægte. De fleste produktionshold bruger vores hosted version til at springe GPU indkøb, model swaps og ops.