Transcribe with Vosk
12.0%
WER
20
Languages
100.0x
Speed
Apache 2.0
License
About Vosk
Languages Supported by Vosk
Model Info
- ProviderAlpha Cephei
- Architecture-
- LicenseApache 2.0
- UpdatedMar 2026
Ofte stilte spørsmål
Vosk er en tale-til-tekst-modell av Alpha Cephei. STT.ai er verter Vosk på vår GPU-infrastruktur slik at du kan bruke den uten å skaffe til veie din egen maskinvare – last opp lyd eller video og velg Vosk fra modellvelgeren.
Med standard standardverdier oppnår 88 000 omtrent 12.0% ordfeilrate. Nøyaktighet i den virkelige verden avhenger av lydkvalitet, aksent og språk. For opptak med støy eller aksent, forvent noen prosentpoeng høyere WER.
Vosk kjører på STT.ais frie nivå – hver besøkende får 600 minutter/ måned uten kostnad. Betalte planer legger til lengre filgrenser, private utskrifter og prioritetskøing.
Vosk er frigitt under Apache 2.0, en ettergivende åpen kildekode- lisens. Du kan selv være vert Vosk på din egen maskinvare eller bruke vår vertsversjon – begge kan brukes kommersielt.
Vosk støtter 20 språk. Auto- deteksjon velger det riktige språket for de fleste lydene. Du kan også oppgi det manuelt for en liten presisjonsheis.
Vosk behandler lyd ved omlag 100.0x i sanntid på våre GPU- er. En en- times lydfil er ferdig på under 1 minutter, lengre filkø og varsles med e- post når den er ferdig.
Vosk har 50M parametre. Større modeller har en tendens til å være mer presise men langsommere. STT.ai er verter Vosk på GPU så parametertallet påvirker ikke din ytelse på klientsiden.
Vosk godtar alle format STT.ai støtter – MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI og andre. Utdata som TXT, SRT, VTT, DOCX, JSON eller PDF.
Ja. Høytalerdiarisering går sammen med Vosk for hver utskrift – hver høyttaler er merket og du kan endre navn på dem i redigeringen etterpå.
Ja. Vosk kjører i vårt styrte miljø – lyd behandles og slettes som standard og brukes aldri til trening uten eksplisitt valg. Pro planer legger til kryptering på klientsiden for utskrifter i hvile.
Bruk sammenlikningsverktøyet til å kjøre Vosk mot alle andre modeller som støttes på samme lyd – du får se WER, segmenttelling, høyttal og tillitspoeng side om side. Sammenlikningen Vosk mot Whisper Stor V3 er det vanligste kjøreverktøyet.
Ja. Oppgi « vosk » som modellparameter for sluttpunktet / v1/ trancribe. Python og Node. js SDK inkluderer Vosk eksempler. Free API- nivå inkluderer 100 minutter/ måned.
Ja, fordi Vosk er Apache 2.0-lisensert, kan du selv være vert for det. STT.ai-tallets åpen-kildekode side lister prosjektet repo og vekter. de fleste produksjonsteam bruker vår vertsversjon til å hoppe over GPU innkjøp, modellbytteavtaler og ops.