Lapor Bug / Panggonan Fitur

Transkripsi karo Vosk

Nggawe karo audio lan video kang ana ing donya. Kandungan kang dilindhungi DRM ora didhukung.

Upgrade for Enhanced

Transkripsi pribadi

Chat karo transcript

Ditutup karo Pro →

Gunakake file iki kanggo nyalin lan nempel

MP3, WAV, M4A, FLAC, MP4, MKV, MOV, WebM — nganti 2GB

Ngunduh sapérangan file karo Pro

Upgrade for Enhanced

Transkripsi pribadi

Chat karo transcript

Ditutup karo Pro →

Upgrade for Enhanced

Real-time speech to text. AI auto-corrects nalika sampeyan ngomong - akurasi tambah karo basa sing luwih dawa.

Uji mikrofonmu pisanan

10 menit/dina 600 min gratis karo signup Ora ana kertu kredit Dienkripsi

12.0%

WER

Basa

100.0x

Kecepatan

Apache 2.0

Lisénsi

Ngendi Vosk

Vosk iku piranti kanggo ngenali swara kang ora ana ing jaringan kang bisa digunakaké tanpa sambungan internet. Vosk bisa digunakaké ing 20+ basa kanthi model kompak kang bisa digunakaké ing piranti seluler, Raspberry Pi, lan platform apa wae. Dibangun ing arsitektur Kaldi lan Zipformer.

Basa kang didhukung déning Vosk

Inggris

Spanyol

Prancis

Jérman

Tyonghwa

Jepang

Korea

Portugis

Arab

India

Rusia

Italia

Walanda

Turki

Polandia

Swedia

Indonesia

Vietnam

Ceska

Yunani

Informasi Model

PanyedhiyaAlpha Cephei
Arsitektur-
LisénsiApache 2.0
DioptimalakeMar 2026

Model sing gegandhengan

3.2% WER

4.2% WER

5.1% WER

3.5% WER

7.8% WER

Pitakon kang asring diajukake

STT.ai host Vosk ing infrastruktur GPU kita supaya sampeyan bisa nggunakake tanpa provisioning piranti lunak dhewe - upload audio utawa video lan pilih Vosk saka model pitcher.

Ing standar benchmarks, Vosk ngrampungake sekitar 12.0% Word Error Rate. Real-world akurasi gumantung ing kualitas audio, accent, lan basa; kanggo noisey utawa accented rekaman, ngarepake sawetara persentase poin luwih dhuwur WER.

Vosk diwiwiti ing tingkat gratis STT.ai - saben pengunjung nampa 600 menit kanggo miwiti tanpa biaya. rencana dibayar nambah watesan file sing luwih dawa, transkripsi pribadi, lan prioritas queueing.

Vosk dirilis ing ngisor Apache 2.0, lisensi sumber terbuka sing permisif. Sampeyan bisa nginstal Vosk ing piranti keras dhewe utawa nggunakake versi sing dihost - loro-loroné bisa digunakake kanthi komersial.

Vosk nyokong 20 basa. Auto-deteksi milih basa kang bener kanggo akèh audio; sampeyan uga bisa nyetel kanthi manual kanggo nambah akurasi.

Vosk ngproses audio ing kira-kira 100.0x real-time ing GPU kita. Fail audio 1 jam rampung ing ngisor 1 menit; file luwih dawa ing gulungan lan dilaporake liwat email nalika rampung.

Vosk duwé parameter 50M. Model kang luwih gedhé luwih akurat nanging luwih lambat; STT.ai duwé host Vosk ing GPU supaya penghitungan parameter ora ngrusak kinerja klien.

Vosk nampa saben format STT.ai nyokong - MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, lan liyane. Output minangka TXT, SRT, VTT, DOCX, JSON, utawa PDF.

Vosk diarization speakers dijalanaken kaliyan saben transkripsi - saben speaker dipunlabel lan sampeyan saged mènèhi jeneng anyar ing editor.

Ya. Vosk dijalanaké ing lingkungan sing diurus — audio diproses lan dipasak kanthi pigura lan ora pernah digunakake kanggo latihan tanpa opt-in eksplisit. Rencana Pro nambah enkripsi klien-sisi kanggo transkripsi nalika ora aktif.

Gunakaké alat compare-stt kanggo nglakokaké Vosk karo modél liya kang didhukung ing audio kang padha — sampeyan bakal ndeleng WER, penghitung segmen, label speaker, lan skor confidence side-by-side. Perbandingan Vosk vs Whisper Large V3 iku sing paling umum dilakokaké.

Ya. Nyathet "vosk" minangka parameter model ing /v1/transcribe endpoint. Python lan Node.js SDKs ngemot conto Vosk. Lapisan API gratis ngemot 100 menit/wulan.

Ya. Amargi Vosk dipunlisensi Apache 2.0, sampeyan saged nghostaken piyambakipun. Lampiran sumber-bukah STT.ai nyathet repo proyèk lan bobot. Kathah tim produksi ingkang ngginakaken versi ingkang dipunhostaken kanggé nglewati GPU procurement, model swaps, lan ops.

Transkripsi karo Vosk

Ngendi Vosk

Basa kang didhukung déning Vosk

Informasi Model

Model sing gegandhengan

Pitakon kang asring diajukake

88.000 jiwa.

Kutha iki ndunungi 88.000 jiwa.

Vosk iku nomer atom kanggo unsur 88.

Kutha iki duwé populasi 88.000 jiwa.

Vosk dipundukung ing salebetipun Vosk basa?

Kutha iki ndunungi 88.000 jiwa.

Kutha iki duwé populasi 88.000 jiwa.

Ing taun 2000, kutha iki ndunungi 88.000 jiwa.

Vosk dipundeteksi kanthi multiple speakers?

Dataku pribadhi nalika aku nggunakake Vosk?

Vosk iku sawijining lintang ing rasi lintang Cetus.

Vosk bisa digunakaké liwat API?

Vosk bisa dioperasikaké ing serverku dhewe.