Transcribe with Vosk
12.0%
WER
20
Languages
100.0x
Speed
Apache 2.0
License
About Vosk
Languages Supported by Vosk
Model Info
- ProviderAlpha Cephei
- Architecture-
- LicenseApache 2.0
- UpdatedMar 2026
Nā nīnau i nīnau pinepine ʻia
Vosk he hōʻailona hoʻouna-i-ka-mea kākau e Alpha Cephei. STT.ai hoʻokipa Vosk ma kā mākou GPU infrastructure no laila hiki iā ʻoe ke hoʻohana iā ia me ka ʻole o ka hoʻolako ʻana i kāu pono ponoʻī - hoʻouna i ka leo a i ʻole ka wikiō a koho i Vosk mai ka mea koho hōʻailona.
Ma nā mea hoʻohālikelike paʻa, Vosk e loaʻa ana ma kahi o 12.0% Word Error Rate. Real-world ka pololei e pili ana i ka maikaʻi leo, accent, a me ka'ōlelo; no ka noisy a i ʻole accented recordings, e manaʻo i kekahi mau pūʻulu o ka helu o ka WER kiʻekiʻe.
Hoʻokō ʻia ka Vosk ma ka papa manuahi o STT.ai - loaʻa i kēlā me kēia malihini kipa nā minuke 600 / mahina me ka uku ʻole. Hoʻohui nā papa hana i uku ʻia i nā palena lōʻihi i kēlā me kēia faila, nā transcripts pilikino, a me ka hoʻouna ʻana i nā koho.
Vosk i hoʻokuʻu ʻia ma lalo o Apache 2.0, he laikini open-source permissive. Hiki iā ʻoe ke hoʻokani i ka Vosk ma kāu pono ponoʻī a i ʻole e hoʻohana i kā mākou mana hoʻokani - ʻo nā mea a pau e hoʻohana ʻia ana i ka mākeke.
Hoʻohana ʻia nā ʻōlelo Vosk a me 20 e Vosk. Hoʻohuli ʻia ka ʻōlelo kūpono no ka hapa nui o nā leo e ka ʻike ʻana i ka mīkini; hiki iā ʻoe ke hoʻonohonoho pū iā ia me ka lima no ka hoʻonui ʻana i ka pololei.
Vosk nā hana leo ma ka manawa maoli o 100.0x ma kā mākou GPUs. Hoʻopau ka faila leo 1-hour i lalo o nā minuke 1; nā faila lōʻihi a me ka leka uila i ka wā i hana ʻia.
Vosk he 50M mau paramita. ʻO nā ʻano nui e ʻoi aku ka pololei akā ʻoi aku ka wikiwiki; STT.ai nā mea hoʻokipa Vosk ma GPU no laila ʻaʻole i hoʻopilikia ka helu paramita i kāu hana ʻana o ka ʻaoʻao mea kūʻai aku.
Vosk accepts every format STT.ai supports — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, and others. Output as TXT, SRT, VTT, DOCX, JSON, or PDF.
ʻAe. Hoʻokō ʻia ka diarization speaker ma kahi o Vosk no kēlā me kēia hoʻololi — ʻo kēlā me kēia mea haʻi ʻōlelo i kapa ʻia a hiki iā ʻoe ke hoʻololi i ko lākou inoa i ka mea hoʻoponopono ma hope.
ʻAe. Vosk e holo ana i kā mākou kaiaolaola hoʻokele - hoʻokō ʻia ka leo a hoʻopau ʻia e ka hoʻonohonoho hoʻonohonoho a ʻaʻole i hoʻohana ʻia no ka hoʻomaʻamaʻa ʻana me ka ʻole o ka hoʻoholo ʻana. Hoʻohui nā papa hana Pro i ka hoʻopunipuni ʻana i ka ʻaoʻao o ka mea kūʻai aku no nā transcripts i ka wā e noho ai.
Hoʻohana i ka mea hana e hoʻohālikelike i ka stt e hoʻokō i ka Vosk ma mua o kekahi mau ʻano ʻē aʻe i kākoʻo ʻia ma ka leo like - e ʻike ʻoe i ka WER, ka helu ʻana i nā ʻāpana, nā ʻōlelo kīwī, a me nā helu hōʻoia ʻana i nā ʻōlelo.
ʻAe. E hoʻonohonoho i "vosk" ma ke ʻano he parameter model ma ka / v1 / transcribe endpoint. Python a me Node.js SDKs e like me nā hōʻailona Vosk.
ʻAʻole. No ka mea he Vosk ka Apache 2.0-licensed, hiki iā ʻoe ke hoʻokani iā ia. Hoʻonohonoho ka ʻaoʻao open-source o STT.ai i ka repo a me nā mānoanoa o ka papahana. Hoʻohana ka hapa nui o nā hui hana i kā mākou mana hoʻokipa e hoʻokau i ka hoʻopaʻa ʻana o GPU, nā hoʻololi o nā hōʻailona a me nā ops.