Transcribe with Vosk
12.0%
WER
20
Languages
100.0x
Speed
Apache 2.0
License
About Vosk
Languages Supported by Vosk
Model Info
- ProviderAlpha Cephei
- Architecture-
- LicenseApache 2.0
- UpdatedMar 2026
Հաճախակի տրվող հարցեր
Vosk-ը Alpha Cephei-ի խոսքից տեքստ վերածելու մոդելն է։ STT.ai-ը Vosk-ը պահում է մեր GPU-ի ինֆրակառուցվածքում, այնպես որ դուք կարող եք օգտագործել այն առանց ձեր սեփական սարքավորումների՝ ներբեռնելով ձայն կամ տեսանյութ և ընտրելով Vosk-ը մոդելի ընտրողից։
Ստանդարտական չափանիշների վրա Vosk-ը հասնում է մոտ 12.0% Word Error Rate-ի։ Ռեալ աշխարհում ճշգրտությունը կախված է ձայնի որակից, ակցենտից և լեզվից։ Խոսքային կամ ակցենտով գրանցումների դեպքում սպասեք մի քանի տոկոսային կետ ավելի բարձր WER-ի։
Vosk-ը աշխատում է STT.ai-ի անվճար մակարդակով՝ յուրաքանչյուր այցելու ստանում է 600 րոպե/ամսվա անվճար ծառայություն։ Պետք է վճարել յուրաքանչյուր ֆայլի համար ավելացված երկար նվազագույն թողունակության համար, մասնավոր տրանսկրիպտների համար և առաջնահերթ հերթի համար։
Vosk-ը թողարկվել է Apache 2.0 թույլատրելի բաց կոդով լիցենզիայով։ Դուք կարող եք Vosk-ը տեղադրել ձեր սեփական սարքավորումների վրա կամ օգտագործել մեր տեղադրված տարբերակը՝ երկուսն էլ առևտրային նպատակներով օգտագործելի են։
Vosk-ը աջակցում է 20 լեզուներին։ Ավտոմատ հայտնաբերումը ընտրում է ճիշտ լեզուն ձայնային տվյալների մեծամասնության համար։ Դուք կարող եք նաև ձեռքով նշել այն՝ ճշգրտության փոքրիկ բարձրացման համար։
Vosk-ը ձայնը 100.0x արագությամբ է պրոցեսավորում մեր GPU-ների վրա։ 1 ժամ տևողությամբ ձայնային ֆայլը ավարտվել է 1 րոպեում։ Ավելի երկար ֆայլերը թողնվում են հերթի մեջ և ավարտվելուց հետո տեղեկացնում են էլեկտրոնային փոստով։
Vosk-ը ունի 50M պարամետրեր։ Մեծ մոդելները ավելի ճշգրիտ են, բայց դանդաղ են։ STT.ai-ը Vosk-ը պահում է GPU-ում, այնպես որ պարամետրերի քանակը չի ազդում ձեր կրեատիվ արագության վրա։
Vosk-ը ընդունում է STT.ai-ի աջակցած բոլոր ֆորմատները՝ MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI և այլն։ Էքստրյուդը TXT, SRT, VTT, DOCX, JSON կամ PDF է։
Այո, յուրաքանչյուր փոխառության համար Vosk-ի հետ միասին աշխատում է ձայնագրիչի օրացույցը, յուրաքանչյուր ձայնագրիչ ունի պիտակ, և դուք կարող եք վերանվանել դրանք խմբագրիչում հետո։
Այո։ Vosk-ը աշխատում է մեր կառավարվող միջավայրում — լսվող ձայնը վերամշակվում և ոչնչացվում է լռելյայն և երբեք չի օգտագործվում ուսուցման համար առանց ակնհայտ համաձայնության։ Pro պլանները ավելացնում են հաճախորդի կողմից գաղտնագրում հանգիստ վիճակում գտնվող ձայնագրությունների համար։
Vosk-ը նույն ձայնային համակարգի վրա ցանկացած այլ աջակցվող մոդելի հետ համեմատելու համար օգտագործեք compare-stt գործիքը, որի միջոցով դուք կտեսնեք WER, սեկցիաների քանակը, ձայնագրիչների պիտակներն ու վստահության գնահատականները միմյանց կողքին։ Vosk-ի և Whisper Large V3-ի համեմատությունը ամենատարածվածն է։
Այո։ /v1/transcribe վերջնական կետում մոդելի պարամետրի համար նշեք «vosk»։ Python և Node.js SDK-ները ներառում են Vosk օրինակներ։ Ազատ API-ի մակարդակը ներառում է 100 րոպե/ամսվա ծառայություն։
Այո։ Քանի որ Vosk-ը Apache 2.0-ի լիցենզիայով է, դուք կարող եք ինքնուրույն ապահովել այն։ STT.ai-ի բաց կոդով էջում ներկայացված է նախագծի ռեպո և քաշը։ Ամենից շատ արտադրական թիմեր օգտագործում են մեր ապահովված տարբերակը՝ GPU-ի ձեռքբերումը, մոդելի փոխանակումը և պրոցեսը բաց թողնելու համար։