Transcribe with Vosk
12.0%
WER
20
Languages
100.0x
Speed
Apache 2.0
License
About Vosk
Languages Supported by Vosk
Model Info
- ProviderAlpha Cephei
- Architecture-
- LicenseApache 2.0
- UpdatedMar 2026
Саволҳои пурсидашуда
Vosk - ин модел барои гуфтугӯ ба матн аз тарафи Alpha Cephei мебошад. STT.ai Vosk- ро дар инфрасохтори GPU- и мо ҷойгир мекунад, бинобар ин шумо метавонед онро бе таъминоти худи дастгоҳ истифода баред - аудио ё видеоро бор кунед ва Vosk- ро аз интихобкунандаи модел интихоб кунед.
Дар стандартҳои стандартӣ, Vosk ба 12.0% - и хатогии калима мерасад. Дақиқии воқеӣ аз сифати аудио, акцент ва забон вобаста аст; барои сабтҳои овозӣ ё акцентӣ, чанд фоизи баландтарро интизор шавед WER.
Vosk дар сатҳи ройгони STT.ai кор мекунад — ҳар як меҳмон 600 дақиқа/моҳ бепул мегирад. Нақшаҳои пардохташуда лимити дарозтари файл, нусхаҳои махфии нусха ва навбати афзалиятнокро илова мекунанд.
Vosk таҳти иҷозатномаи Apache 2.0, иҷозатномаи кушодаи сарчашмаҳои кушода нашр шудааст. Шумо метавонед Vosk- ро дар дастгоҳи худ ё дар версияи хостишудаи мо истифода баред - ҳардуи онҳо тиҷоратӣ истифодашавандаанд.
Vosk 20 забонҳоро дастгирӣ мекунад. Муайянкунии худкор барои бисёри аудиоҳо забони дурустро интихоб мекунад; шумо инчунин метавонед онро барои баланд бардоштани дақиқии хурд ба таври дастӣ муайян кунед.
Vosk аудиоро дар вақти воқеӣ дар GPU-ҳои мо тақрибан 100.0x коркард мекунад. Файли аудиоии 1 соат дар муддати 1 дақиқа ба итмом мерасад; файлҳои дарозтар дар навбат меистанд ва ҳангоми анҷом ёфтан бо почтаи электронӣ огоҳ карда мешаванд.
Vosk параметрҳои 50M дорад. Намунаҳои калонтар ба дақиқтарӣ ва сустӣ майл доранд; STT.ai Vosk-ро дар GPU ҷойгир мекунад, бинобар ин ҳисобкунии параметрҳо ба иҷроиши тарафи клиент таъсир намерасонад.
Vosk ҳамаи форматҳои STT.ai-ро дастгирӣ мекунад — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI ва дигарон. Хуруҷ ҳамчун TXT, SRT, VTT, DOCX, JSON ё PDF.
Да. Диаризатсияи сухангӯ барои ҳар як нусхаи Vosk иҷро мешавад - ҳар як сухангӯ бо нишона нишон дода мешавад ва шумо метавонед онҳоро баъдтар дар муҳаррир номгузорӣ кунед.
Да. Vosk дар муҳити идорашавандаи мо кор мекунад — аудио бо пешфарз коркард ва нест карда мешавад ва ҳеҷ гоҳ барои омӯзиш бе иҷозатномаи равшан истифода намешавад. Нақшаҳои Pro рамзгузории тарафҳои мизоҷон барои нусхаҳои хомӯшро илова мекунанд.
Барои иҷрои Vosk дар муқоиса бо дигар моделҳои дастгиришаванда дар ҳамон аудио абзори compare-stt-ро истифода баред — шумо WER, шумори сегментҳо, нишонаҳои баландгӯяк ва натиҷаҳои боварӣ дар канори ҳам хоҳед дид. Муқоисаи Vosk ва Whisper Large V3-ро аксар вақт иҷро мекунанд.
"vosk"-ро ҳамчун параметри намуна дар нуқтаи охирини /v1/transcribe муайян кунед. Python ва Node.js SDK-ҳо мисолҳои Vosk-ро дар бар мегиранд. Сатҳи API-и ройгон 100 дақиқа/моҳро дар бар мегирад.
Бале. Азбаски Vosk дорои иҷозатномаи Apache 2.0 мебошад, шумо метавонед онро худи худ соҳиб шавед. Саҳифаи сарчашмаи кушодаи STT.ai репозитории лоиҳаро ва вазнҳоро дар бар мегирад. Бисёре аз дастаҳои истеҳсолот барои гузаронидани хариди GPU, ивазкунии намунаҳо ва амалиётҳо версияи соҳибшудаи моро истифода мебаранд.