Rapporter feil/ funksjonsforespørsel

Transkriber med Vosk

Name: Vosk
Author: Alpha Cephei

Arbeider med offentlig tilgjengelig lyd og video. DRM- beskyttet innhold er ikke støttet.

Oppgradering for forbedret

Privat utskrift

Chat med utskrift

Lås opp med Pro →

Slipp fil her eller trykk for å bla gjennom

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — opptil 2GB

Last opp flere filer (flerbildeverktøy) med Pro

Oppgradering for forbedret

Privat utskrift

Chat med utskrift

Lås opp med Pro →

Oppgradering for forbedret

Sanntidstale til tekst. AI korrigerer automatisk mens du snakker – nøyaktighet forbedres med lengre tale.

Test mikrofonen din først

10 gratis min/dag 600 min fri med registrering Intet kredittkort Kryptert

Registrer deg gratis →

12.0%

WER

Språk

100.0x

Hastighet

Apache 2.0

Lisens

Om Vosk

Vosk er et frakoblet talegjenkjenningsverktøy som virker uten en Internett- forbindelse. Det støtter 20+ språk med kompakte modeller som kan kjøres på mobile enheter, Raspberry Pi og alle plattformer. Byggt på Kalli og Zipformer- arkitekturer.

Språk støttet av Vosk

Engelsk

Spansk

Fransk

Tysk

Kinesisk

Japansk

Koreansk

Portugisisk

Arabisk

Hindi

Russisk

Italiensk

Nederlandsk

Tyrkisk

Polsk

Svensk

Indonesisk

Vietnamesisk

Tsjekkisk

Gresk

Modellinfo

LeverandørAlpha Cephei
Arkitektur-
LisensApache 2.0
OppdatertMar 2026

Tilknyttede modeller

3.2% WER

4.2% WER

5.1% WER

3.5% WER

7.8% WER

Ofte stilte spørsmål

Vosk er en tale-til-tekst-modell av Alpha Cephei. STT.ai er verter Vosk på vår GPU-infrastruktur slik at du kan bruke den uten å skaffe til veie din egen maskinvare – last opp lyd eller video og velg Vosk fra modellvelgeren.

Med standard standardverdier oppnår 88 000 omtrent 12.0% ordfeilrate. Nøyaktighet i den virkelige verden avhenger av lydkvalitet, aksent og språk. For opptak med støy eller aksent, forvent noen prosentpoeng høyere WER.

Vosk kjører på STT.ais ledig nivå – hver besøkende får 600 minutter til å starte uten kostnad. Betalingsplaner legger til lengre filgrenser, private utskrifter og prioritetskøing.

Vosk er frigitt under Apache 2.0, en ettergivende åpen kildekode- lisens. Du kan selv være vert Vosk på din egen maskinvare eller bruke vår vertsversjon – begge kan brukes kommersielt.

Vosk støtter 20 språk. Auto- deteksjon velger det riktige språket for de fleste lydene. Du kan også oppgi det manuelt for en liten presisjonsheis.

Vosk behandler lyd ved omlag 100.0x i sanntid på våre GPU- er. En en- times lydfil er ferdig på under 1 minutter, lengre filkø og varsles med e- post når den er ferdig.

Vosk har 50M parametre. Større modeller har en tendens til å være mer presise men langsommere. STT.ai er verter Vosk på GPU så parametertallet påvirker ikke din ytelse på klientsiden.

Vosk godtar alle format STT.ai støtter – MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI og andre. Utdata som TXT, SRT, VTT, DOCX, JSON eller PDF.

Ja. Høytalerdiarisering går sammen med Vosk for hver utskrift – hver høyttaler er merket og du kan endre navn på dem i redigeringen etterpå.

Ja. Vosk kjører i vårt styrte miljø – lyd behandles og slettes som standard og brukes aldri til trening uten eksplisitt valg. Pro planer legger til kryptering på klientsiden for utskrifter i hvile.

Bruk sammenlikningsverktøyet til å kjøre Vosk mot alle andre modeller som støttes på samme lyd – du får se WER, segmenttelling, høyttal og tillitspoeng side om side. Sammenlikningen Vosk mot Whisper Stor V3 er det vanligste kjøreverktøyet.

Ja. Oppgi « vosk » som modellparameter for sluttpunktet / v1/ trancribe. Python og Node. js SDK inkluderer Vosk eksempler. Free API- nivå inkluderer 100 minutter/ måned.

Ja, fordi Vosk er Apache 2.0-lisensert, kan du selv være vert for det. STT.ai-tallets åpen-kildekode side lister prosjektet repo og vekter. de fleste produksjonsteam bruker vår vertsversjon til å hoppe over GPU innkjøp, modellbytteavtaler og ops.

Transkriber med Vosk

Om Vosk

Språk støttet av Vosk

Modellinfo

Tilknyttede modeller

Ofte stilte spørsmål

Hva er Vosk?

Hvor nøyaktig er Vosk?

Er Vosk gratis å bruke?

Hvilket førerkort bruker Vosk?

Hvor mange språk støtter Vosk?

Hvor fort er Vosk?

Hvor stor er Vosk-modellen?

Hvilke lydformater kan Vosk transskribere?

Finner Vosk flere høyttalere?

Er mine data private når de bruker Vosk?

Hvordan sammenlignes 88 000 med andre STT-modeller?

Kan jeg bruke Vosk via API?

Kan jeg kjøre Vosk på min egen tjener?