Transcribe with Vosk
12.0%
WER
20
Languages
100.0x
Speed
Apache 2.0
License
About Vosk
Languages Supported by Vosk
Model Info
- ProviderAlpha Cephei
- Architecture-
- LicenseApache 2.0
- UpdatedMar 2026
Gynançly Soraglar
Vosk Alpha Cephei tarapyndan bir sözden metin modeldir. STT.ai Vosk-i biziň GPU-myzyň infratrukturasynda kabul edýär, şonuň üçin siz ony öz haýalyňyzy bermän ulanyp bilersiňiz — audio ýa-da video ýükläp we Vosk-i modlu saýlajydan saýlaň.
Standart benchmarks'da, Vosk 12.0% söz hata derejesine ýetýär. Hakykatda dogrylyk ses hili, aksent we dilde bagly; gürleşikli ýa aksentli ýazgylar üçin, birnäçe göterim WER'den ýokary garaş.
Vosk STT.ai's free tier üstünde işleýär — her bir myhman 600 minut/aýda mugt alýar. Ödenilen planlar faýl üçin has uzak çäklendirmeleri, şahsy transkripsiýalary we öňe sürülen nobatlary goşýar.
Vosk Apache 2.0 astynda çykaryldy, bir ygtybarly açyk çeşme lisenziýasy. Siz Vosk-i öz hasabyňyzda öz-özüňize kabul edip bilersiňiz ýa-da biziň kabul edilen wersiýamyzy ulanyp bilersiňiz — ikisi hem söwda taýdan ulanylyp bilner.
Vosk 20 dilleri goldaýar. Otomatik tapmak köp ses üçin dogry dili saýlar; siz ony el bilen hem bellip bilersiňiz kiçiçe dogrylyk üçin.
Vosk audiony 100.0x real-time bilen işlemek üçin GPU'larymyzy ulanýar. 1 sagatlyk audio faýl 1 minutyň içinde tamamlanýar; uzak faýllar nobatda durýar we tamamlananda e-poçta bilen habar berler.
Vosk 50M parametrleri bar. Büyük modeller has dogry emma yavaş; STT.ai GPU'da Vosk'i kabul edýär şuňa görä parametrleriň sany siziň kliýent tarap işleýşinize täsir etmez.
Vosk STT.ai goldaýan her hili formaty kabul edýär — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, we beýlekiler. Çykyş TXT, SRT, VTT, DOCX, JSON, ýa-da PDF.
Eý. Sözleýji diaryzasiýasy her bir transkripsiýa üçin Vosk bilen bir hatarda işleýär - her bir sözleýji etiketlenýär we siz olary soňra redaktorda täzeden atlandyryp bilersiňiz.
Eý. Vosk biziň dolandyrylan gurşawymyzda işleýär — ses işlemek we pozmak öň bellenen we hiç wagt belli bir opt-insiz tälim üçin ulanylmaýar. Pro planlar ýatda duran transkripsiýalar üçin müşderi tarapy şifreleme goşýar.
Vosk-i aňşy sesde her haýsy goldawa eýe model bilen deňeşdirmek üçin compare-stt esbaby ullan — siz WER, segment sanaw, sözleýji etiketleri we ynamlylyk skorlaryny birikdiren görersiňiz. Vosk vs Whisper Large V3 deňeşdirmesi iň köp işlenen biridir.
Eý. "vosk" parametrini /v1/transcribe ahyrynda model parametri hökmünde belle. Python we Node.js SDKs Vosk mysallary içer. Beýik API derejesi 100 minut/aýda içer.
Eý. Vosk Apache 2.0-licensiýaly bolansoň, siz ony öz-özüňize kabul edip bilersiňiz. STT.ai's open-source page lists the project repo and weights. Most production teams use our hosted version to skip GPU procurement, model swaps, and ops.