Zahtjev za greškom / osobinama

Transcribe with Vosk

Name: Vosk
Author: Alpha Cephei

Radi s javno dostupnim audio & video. DRM zaštićeni sadržaj nije podržan.

Nadogradnja za poboljšanje

Privatni transkripti

Čavrljaj s transkriptom

Otključaj pomoću pro →

Ispustite datoteku ovdje ili kliknite za pregled

MP3, WAV, M4A, FLAC, MP4, MKV, pokret, WebM — do 2GB

Ubaci više datoteka s Pro

Nadogradnja za poboljšanje

Privatni transkripti

Čavrljaj s transkriptom

Otključaj pomoću pro →

Nadogradnja za poboljšanje

Realno vrijeme govor na tekst. AI automatski ispravlja dok govorite – preciznost se poboljšava s dužim govorom.

Isprobaj prvo mikrofon

10 besplatnih min/dan 600 min besplatno s prijavom Nema kreditne kartice Šifrirano

Upišite se besplatno →

12.0%

WER

Jezici

100.0x

Brzina

Apache 2.0

Dozvola

O programu Vosk

Vosk je offline alat prepoznavanja govora koji radi bez internetske veze. Podržava 20+ jezika s kompaktnim modelima koji mogu raditi na mobilnim uređajima, Raspberry Pi i bilo kojoj platformi. Izgrađen na Kaldi i Zipformer arhitekturama.

Jezici koje podržava Vosk

Engleski

Španjolski

Francuski

Njemački

Kineski

Japanski

Korejski

Portugalski

Arapski

Hindski

Ruski

Talijanski

Nizozemski

Turski

Poljski

Švedski

Indonezijski

Vijetnamski

Češki

Grčki

Podaci o modelu

PonuđačAlpha Cephei
Arhitektura-
DozvolaApache 2.0
AžuriranoMar 2026

Povezani modeli

3.2% WER

4.2% WER

5.1% WER

3.5% WER

7.8% WER

Česta pitanja

Vosk je model govor-na-tekst od Alpha Cephei. STT.ai domaćina Vosk na našoj infrastrukturi GPU tako da ga možete koristiti bez opskrbe vlastitim hardverom – upload audio ili video i odaberite Vosk iz modela birač.

Na standardnim mjerilima, Vosk postiže oko 12.0% Word Pogreška. Preciznost stvarnog svijeta ovisi o kvaliteti zvuka, naglasku i jeziku; za bučne ili naglasene snimke, očekujte nekoliko postotka više WER.

Vosk radi na STT.ai-ovom besplatnom nivou – svaki posjetitelj dobiva 600 minuta za početak bez troškova. Plaćeni planovi dodati više po datoteci ograničenja, privatne transkripte i prioritet redoslijeda.

Vosk je pušten pod Apache 2.0, popustljiva dozvola otvorenog izvora. Možete samostalno voditi Vosk na vlastitom hardveru ili koristiti našu domaću verziju – oboje su komercijalno upotrebljivi.

Vosk podržava 20 jezika. Auto-detekcija bira pravi jezik za većinu zvuka; možete ga također ručno navesti za mali preciznost lift.

Vosk procesa zvuka na oko 100.0x real-time na našem GPU-u. Jedan sat audio datoteka završava u manje od 8802 minuta; duže datoteke redak i obavijestite e-mailom kada se uradi.

Vosk ima 8802 parametra. Veći modeli su točniji, ali sporije; STT.ai domaćina Vosk na GPU tako da broj parametara ne utječe na performanse vašeg klijenta.

Vosk prihvaća svaki oblik STT.ai podrške — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI i ostali. Izlaz kao TXT, SRT, VTT, DOCX, JSON, ili PDF.

Da. Zvučnička dijarizacija teče uz Vosk za svaku transkripciju — svaki govornik je označen i možete ih nakon toga preimenovati u uredniku.

Da. Vosk trči u našem upravljanom okruženju – audio se obrađuje i briše uobičajeno i nikada se ne koristi za trening bez eksplicitne opt-in. Pro planovi dodati klijent-strana enkripcija za transkripte u miru.

Koristite alat usporedbe-stt za pokretanje Vosk protiv bilo kojeg drugog podržanog modela na istom zvuku – vidjet ćete WER, broj segmenta, zvučnike, i samopouzdanje rezultate strane-ba-side. Vosk protiv Whisper Veliki V3 usporedba je najčešće pokrenuti.

Da. Navedite "vosk" kao parametar modela na /v1/transcribe ishodu. Python i Node.js SDKs uključuju Vosk primjera. Besplatni API stupanj uključuje 100 minuta/mjesec.

Da. Budući da je Vosk je 8802-licensirana, možete ga samostalno voditi. STT.ai stranica otvorenog izvora popisuje repo i utege projekta. Većina proizvodnih timova koristi našu domaćinu za preskočenje GPU nabave, modela swaps, i ops.

Transcribe with Vosk

O programu Vosk

Jezici koje podržava Vosk

Podaci o modelu

Povezani modeli

Česta pitanja

Koliko je Vosk?

Koliko je točna Vosk?

Je li Vosk slobodno za upotrebu?

Koju dozvolu koristi Vosk?

Koliko jezika podržava Vosk?

Koliko je brzo Vosk?

Koliko je velik model Vosk?

Koji audio formati mogu upisati Vosk transkripcija?

Da li Vosk otkriva više zvučnika?

Jesu li moji podaci privatni kada koristim Vosk?

Kako se Vosk usporedi s drugim STT modelima?

Mogu li koristiti Vosk preko API?

Mogu li pokrenuti Vosk na vlastitom poslužitelju?