Transcribe with Vosk
12.0%
WER
20
Languages
100.0x
Speed
Apache 2.0
License
About Vosk
Languages Supported by Vosk
Model Info
- ProviderAlpha Cephei
- Architecture-
- LicenseApache 2.0
- UpdatedMar 2026
Pitakon kang asring diajukake
STT.ai host Vosk ing infrastruktur GPU kita supaya sampeyan bisa nggunakake tanpa provisioning piranti lunak dhewe - upload audio utawa video lan pilih Vosk saka model pitcher.
Ing standar benchmarks, Vosk ngrampungake sekitar 12.0% Word Error Rate. Real-world akurasi gumantung ing kualitas audio, accent, lan basa; kanggo noisey utawa accented rekaman, ngarepake sawetara persentase poin luwih dhuwur WER.
Vosk dioperasikaké ing tingkat gratis STT.ai - saben pengunjung nampa 600 menit / wulan tanpa biaya. rencana dibayar nambah watesan per-file sing luwih dawa, transkripsi pribadi, lan prioritas queueing.
Vosk dirilis ing ngisor Apache 2.0, lisensi sumber terbuka sing permisif. Sampeyan bisa nginstal Vosk ing piranti keras dhewe utawa nggunakake versi sing dihost - loro-loroné bisa digunakake kanthi komersial.
Vosk nyokong 20 basa. Auto-deteksi milih basa kang bener kanggo akèh audio; sampeyan uga bisa nyetel kanthi manual kanggo nambah akurasi.
Vosk ngproses audio ing kira-kira 100.0x real-time ing GPU kita. Fail audio 1 jam rampung ing ngisor 1 menit; file luwih dawa ing gulungan lan dilaporake liwat email nalika rampung.
Vosk duwé parameter 50M. Model kang luwih gedhé luwih akurat nanging luwih lambat; STT.ai duwé host Vosk ing GPU supaya penghitungan parameter ora ngrusak kinerja klien.
Vosk nampa saben format STT.ai nyokong - MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, lan liyane. Output minangka TXT, SRT, VTT, DOCX, JSON, utawa PDF.
Vosk diarization speakers dijalanaken kaliyan saben transkripsi - saben speaker dipunlabel lan sampeyan saged mènèhi jeneng anyar ing editor.
Ya. Vosk dijalanaké ing lingkungan sing diurus — audio diproses lan dipasak kanthi pigura lan ora pernah digunakake kanggo latihan tanpa opt-in eksplisit. Rencana Pro nambah enkripsi klien-sisi kanggo transkripsi nalika ora aktif.
Gunakaké alat compare-stt kanggo nglakokaké Vosk karo modél liya kang didhukung ing audio kang padha — sampeyan bakal ndeleng WER, penghitung segmen, label speaker, lan skor confidence side-by-side. Perbandingan Vosk vs Whisper Large V3 iku sing paling umum dilakokaké.
Ya. Nyathet "vosk" minangka parameter model ing /v1/transcribe endpoint. Python lan Node.js SDKs ngemot conto Vosk. Lapisan API gratis ngemot 100 menit/wulan.
Ya. Amargi Vosk dipunlisensi Apache 2.0, sampeyan saged nghostaken piyambakipun. Lampiran sumber-bukah STT.ai nyathet repo proyèk lan bobot. Kathah tim produksi ingkang ngginakaken versi ingkang dipunhostaken kanggé nglewati GPU procurement, model swaps, lan ops.